Posts List

[빅분기] PART1. 빅데이터 분석 기획 - 빅데이터의 이해 - 빅데이터 개요 및 활용 (출제빈도 : 하)

* 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

PART1. 빅데이터 분석 기획

1. 빅데이터의 이해

1-1. 빅데이터 개요 및 활용

1) 데이터 vs. 정보

* 데이터의 특징

  - 추론과 추정의 근거를 이루는 사실. 관찰하거나 측정하여 수집.
  - 단순 객체도 가치 있으며, 타 객체와 상호관계 속 더 큰 가치를 가짐.
  - 객관적 사실이라는 특성이 있음.

* 데이터의 구분

  - 정량적 데이터(Quantitative data) : 주로 숫자로 이루어 짐
  - 정성적 데이터(Qualitative data) : 문자/텍스트 등 함축적 의미

* 데이터의 유형

  - 정형 : 정해진 형식과 구조에 맞게 저장된 데이터. 연산 가능 (ex. RDB의 테이블에 저장된 데이터)
  - 반정형 : 형식과 구조가 유연하며 스키마를 함께 제공. 연산 불가 (ex. JSON, XML, RDF, HTML)
  - 비정형 : 구조가 정해지지 않은 데이터 (ex. 동영상, 이미지, 메일)

* 데이터의 근원

- 가역 데이터 : 원본으로 환원 가능, 이력 추적 등 원본과 1:1 관계 → 데이터마트, 데이터 웨어하우스 활용
- 비가역 데이터 : 환원 불가. 전혀 다른 형태로 재생산 → 데이터 전처리, 프로파일 구성

* 지식창조 메커니즘 : 암묵지-형식지 간 상호작용 메커니즘

(1) 공통화(Socialization) : 인식을 공유해 한차원 높은 암묵지로 발전시키는 과정
(2) 표출화(Externalization) : 구체화 하여 외부(형식지)로 표현하는 과정
(3) 연결화(Combination) : 형식지를 재분류하여 체계화하는 과정
(4) 내면화(Internalization) : 전달받은 형식지를 다시 개인의 것으로 만드는 과정

* 데이터 → 정보 → 지식 → 지혜

  - 데이터 : 수집된 사실이나 값, 의미가 중요하지 않은 객관적 사실
  - 정보 : 데이터 가공/처리, 관계 분석하여 도출된 의미
  - 지식 : 정보를 구조화 하고 개인 경험을 결합시킨 고유의 결과물
  - 지혜 : 축적된 지식으로 근본 원리 이해 및 아이디어 결합된 산물 

2) 데이터베이스

* 데이터베이스란?

 - 체계적이거나 조직적으로 정리되고, 전자식 또는 기타 수단으로 접근할 수 있는 저작물 / 데이터 / 수집물
 - 복수 이용자의 요구에 대응, 데이터를 받아들이고 저장 / 공급 하기 위해 일정한 구조에 따라 편성된 데이터의 집합

* DB관리시스템(DBMS : DB Management System)

 - 관계형 DBMS : 열과 행으로 이루어진 테이블로 표현하는 모델
 - 객체지향 DBMS : 정보를 객체 형태로 표현하는 모델
 - 네트워크 DBMS : 그래프 구조를 기반으로 하는 모델
 - 계층형 DBMS : 트리 구조를 기반으로 하는 모델

※ SQL(Structured Query language) : DB 접근/사용 하기 위한 언어

* 데이터베이스의 특징

 - 통합(Integrated) : 모든 데이터가 중복되어 저장되지 않음.
 - 저장(Stored) : 컴퓨터가 접근가능한 저장매체에 데이터를 저장한다.
 - 공용(Shared) : 여러 사용자가 함께 이용한다. (일반적으로 대용량화 되어 있어 구조가 복잡함)
 - 변화(Changed) : 현시점의 상태를 보여주며, 지속적으로 갱신된다. 

 ※ 장점 : 데이터 중복 최소화 / 실시간 접근 / 보안 / 논리 및 물리적 독립성 / 일관성 / 무결성 / 공유
 ※ 단점 : 구축 및 유지 비용, 백업 및 복구 등 관리 비용

* 데이터베이스의 활용

 (1) OLTP (OnLine Transaction Processing)
  - 서버(host) ↔ 클라이언트(여러 단말) 형태로, 하나의 데이터베이스를 수시로 갱신하는 프로세싱을 의미
  ex) 1개 트랜잭션에 발생하는 INSERT, UPDATE, DELETE의 과정을 무결성 보장하여 처리하고, 그 결과를 SELECT 하는 과정
 (2) OLAP (OnLine Analytical Processing)
  - OLTP에서 처리된 트랜잭션 데이터를 분석 처리하여 정보화 하는 프로세싱을 의미
  - 기존에 저장되어 있는 데이터를 사용자의 요구와 목적에 맞게 분석하여 정보를 제공하는 개념
 ※ OLTP가 갱신 위주라면 OLAP은 조회 위주라고 할 수 있다.


* 데이터 웨어하우스(DW)

 - 데이터만이 아닌 분석방법까지도 포함하여, 조직 내 의사결정을 지원하는 '정보 관리 시스템'
 - 의사결정에 도움을 주기 위해 기관시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환 / 관리 하는 DB
 - 특징
  (1) 주제지향성(Subject-orientation) : 중요한 주제를 중심으로 관련된 데이터들로 구성
  (2) 통합성(Integration) : 일관된 형태로 변환되고, 전사적인 관점에서 통합됨
  (3) 시계열성(Time-variant) : 일정 기간동안 시점별로 이어짐
  (4) 비휘발성(Non-volatilization) : 데이터가 적재되면 일괄 작업에 의한 갱신 외에는 변경없음
 - 구성
  (1) ETL(Extract, Transform, Load) : 기업 내외부에서 데이터를 추출/정제/가공 하는 모듈
  (2) ODS(Operational Data Store) : 다양한 DBMS에서 추출한 데이터를 통합 관리하는 모듈
  (3) DW 메타데이터 : 데이터 모델에 대한 스키마 정보 등 (a.k.a 데이터's 데이터)
  (4) OLAP : 사용자가 직접 다차원의 데이터를 확인(시각화)
  (5) 데이터 마이닝 : 대용량의 데이터로부터 인사이트를 도출하는 방법
  (6) 분석 도구 : 데이터 마이닝을 활용해 DW에 적재된 데이터를 분석하는 도구
  (7) 경영기반 솔루션 : KMS(지식관리시스템), DSS(의사결정지원시스템) BI와 같은 솔루션(툴)
      ※ KMS(Knowledge management System), DSS(Decision Support System), BI(Biz. Intelligence)

3) 빅데이터 : 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석이 어려운 정형/비정형 데이터

* 빅데이터 등장으로 인한 변화

 - 데이터 처리 시점 : 사전처리 → 사후처리
   ※ 필요한 정보만 수집하는 방식 → 가능한 많은 데이터를 모으고 조합하여 정보를 얻음
 - 데이터 처리 범주 : 표본조사 → 전수조사
   ※ 기술 발전으로 인해 데이터 처리 비용 감소
 - 데이터 가치 판단 : 질 → 양
 - 데이터 처리 방식 : 중앙집중식 → 분산처리
 - 데이터 분석 방향 : 이론적 인과관계 → 데이터 간 상관관계
 - 데이터 저장 시스템 : Relational DBMS → Hadoop, HDFS, Hbase, NoSQL 등

* 빅데이터의 특징

 - 광의적으로는 5V(최근 데이터 품질 및 가치 중요성 대두), 협의적으로는 3V(초기 가트너 그룹의 정의)의 특징을 가짐
 - 규모(Volume), 유형(Variety), 속도(Velocity) + 품질(Veracity), 가치(Value)
   ※ 품질 : 데이터의 신뢰성 / 정확성 / 타당성 보장 필요
      가치 : 대용량 데이터 안에서 숨겨진 가치 발굴 중요
 - 빅데이터 활용을 위한 3요소
   (1) 자원(Resource) : 정형 / 반정형 / 비정형 데이터 실시간 수집 (빅데이터)
   (2) 기술(Tech.) : 분산처리 / 분석 / 시각화 / AI 등. (빅데이터플랫폼, AI플랫폼)
   (3) 인력(People) : 통계 / 수학 / 컴퓨터 / 경영 등 전문지식 (분석가, 데이터과학자)
 - 빅데이터의 활용
   : 연관규칙학습(상관관계) / 유형분석(분류, 그룹화) / 유전알고리즘 (최적솔루션) / 기계학습 / 회귀분석 / 감정분석 / 소셜네트워크(관계망)분석

4) 빅데이터의 가치

(생략)


5) 데이터 산업의 이해

* 데이터 산업의 진화

 - 진화 순서 : 데이터 처리 → 통합 → 분석 → 연결 → 권리 시대로 진화
   1) 처리 시대 : 데이터는 업무 처리의 대상(새로운 가치X)
   2) 통합 시대 : 데이터가 쌓이기 시작 → 데이터 모델링, DB 관리 시스템, DW도입
   3) 분석 시대 : 모바일/SNS 보급 등 데이터 폭발적 증가 → 하둡, 스파크 등 빅데이터 기술 등장. AI 기술 등장.
   4) 연결 시대 : 시업/기관/사람/사물 등이 동시에, 둘 이상의 방식으로 연결. 오픈 API 경제 등장
   5) 권리 시대 : 데이터 소유자의 권리(My Data) 등장. 

 - 데이터 산업의 구조
   1) 인프라 : 수집/저장/분석/관리의 기능을 담당. (HW + SW)
   2) 서비스 : 데이터 활용 교육/컨설팅 솔루션, 데이터 분석 서비스 담당

6) 빅데이터 조직 및 인력

* 빅데이터 조직의 역할 : 분석업무 발굴 / 인사이트 도출 / 인사이트 전파 및 실행

* 조직의 구성


 1) 집중형 : 전사 분석 업무를 변도의 전담조직에서 수행
  - 과제의 중요도에 따라 우선순위를 전담조직에서 결정 / 수행

 2) 기능형 : 수행입장에서 일반적인 구조. 각 현업부서에서 분석업무 직접 수행
  - 전사 관점의 핵심 분석 어려움. 특정 현업 부서에서 협소한 분석 수행 가능성 높음

 3) 분산형 : 전담조직에서 현업부서에 배치(패견) 하여 분석 업무 수행
  - 집중형과 기능형의 장점을 모두 가짐. (전사 차원에서 우선순위 결정 가능하며 현업에 빠르게 적용 가능)

 ※ 조직구성 Check List
  √ 비즈니스 질문을 선제적으로 찾아낼 수 있는 구조인가?
  √ 전담조직과 타 부서 간 유기적인 협조와 지원이 가능한가?
  √ 효율적 분석 업무를 수행하기 위한 조직의 분석 조직의 내부 조직구조 갖추었는가?
  √ 전사 및 단위부서가 필요시 접촉하며 지원할 수 있는가?
  √ 어떤 형태(집중/기능/분산)의 조직으로 구성하는 것이 효율적인가?

 ※ 인력 구성 Check List
  √ 비즈니스(Domain) + IT 전문가의 조합으로 구성되어야 하는가?
  √ 어떤 경험과 스킬을 갖춘 사람으로 구성해야 하는가?
  √ 통계기법, 분석 모델링 전문 인력을 별도로 구성해야 하는가?
  √ 전사 비즈니스를 커버하는 인력이 있는가?
  √ 전사를 커버하기 위한 적합한 인력규모는 어느 정도인가?

 ※ 구성 인력과 필요 역량
  √ 비즈니스를 이해하고 있는 인력 (Domain)
  √ 분석에 필요한 컴퓨터 공학적 기술을 이해하고 있는 인력 (IT)
  √ 통계를 이용한 분석기법을 활용할 수 있는 인력 (분석)
  √ 조직 내 분석 문화 확산ㅇ르 위한 변화 관리 인력 (실행)
  √ 관련 부서 조직의 분석 역량 향상을 위한 교육 담당 인력 (교육)




댓글 쓰기

0 댓글