* 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

PART1. 빅데이터 분석 기획

3. 데이터 수집 및 저장 계획

3-1. 데이터 수집 및 전환

1) 데이터 수집

여러 장소에 있는 데이터를 한 곳을 모으는 행위. 아래의 자료를 수집 수행.

** 용어집 / 원천 데이터 소유 기관 정보 / 원천 데이터 담당자 정보 / 데이터 명세서 /

데이터 수집 계획서 / 데이터 수집 기술 매뉴얼 / 업무 매뉴얼 / 서비스 흐름도

인프라 구성도 / SW아키텍처 개념도 / 수집 솔루션 매뉴얼 / 하둡 오퍼레이션 매뉴얼

Biz. 및 원천 데이터 파악을 위한 Biz. 모델

[ 기초 데이터 수집 수행 절차 ]

[ 데이터 수집 시스템 구축 절차 ]

* 비즈니스 도메인과 원천 데이터

① 비즈니스 도메인 정보

- Biz.모델 / Biz.용어집 / Biz. 프로세스로부터 관련 정보 습득

- 도메인 전문가 인터뷰를 통해 데이터 종류 / 유형 / 특징 정보를 습득

② 원천 데이터 정보

[ 수집 가능성 ] 수집 용이성 및 발생빈도 탐색, 전처리/후처리 비용 대략 산정 가능

[ 수집 난이도 ] 데이터 존재 위치, 유형, 수집용량, 구축비용, 정제 과정의 복잡성 고려

[ 수집 비용 ] 데이터 수집하기 위해 발생할 수 있는 획득 비용 산정

[ 정확성 ] 적절한 데이터 항목 유무, 데이터 품질 확보 탐색

[ 보안 ] 개인정보 포함 여부, 지식 재산권 존재 여부 판단 및 리스크 예방

* 내/외부 데이터

- 내부 데이터 : 조직 내부에서 생성되는 데이터 / 실시간 수집 분석 필요 / 가공에 노력↓

- 외부 데이터 : 수집 주기 결정 등 수집 관리 정책 필요 / 목표에 맞는 데이터 탐색/수집/변환 노력 필요

* 2014년 이후 데이터 거래소 통한 데이터 유통 활성화

* 데이터 수집 기술 (★)

2) 데이터 유형 및 속성 파악

* 데이터 수집 세부 계획

- 데이터 유형 / 위치 / 크기 / 보관방식 / 수집주기 / 확보비용 / 데이터 이관 절차 조사 및 세부계획서 작성

* 데이터 위치 및 비용

- 수집 데이터의 원천에 따라 내/외부 데이터로 구분, 아래 비용 요소를 고려하여 비용을 산정

① 데이터 종류 : RDB, 파일, HTML

② 데이터 크기 및 보관 주기 : 데이터 수집, 저장크기, 수집데이터의 저장 주기

③ 데이터 수집 주기 : 실시간, 매시, 매일, 매주, 매달

④ 데이터 수집 방식 : 자동 수집, 수동 수집

⑤ 데이터 수집 기술 : ETL, FTP, 크롤러, DBtoDB

⑥ 데이터의 가치성 : 분석 수행을 위한 목적성 있는 대상 데이터

* 수집되는 데이터 형태

① HTML (Hypertext Markup Language)

- 웹페이지 제작에 주로 사용되는 문서 형식. 텍스트 / 태그 / 스크립트로 구성

② XML (eXtensible Markup Language)

- 데이터를 표현하기 위해 태그를 사용하는 언어. 엘리먼트 / 속성 / 처리명령 / 엔티티 / 주석 / CDATA섹션으로 구성

③ JSON (JavaScript Object Notation)

- 자바스크립트를 위해 객채 형식으로 자료를 표현하는 문서 형식. 경량의 데이터 교환 방식

* 데이터 저장 방식

① 파일 시스템 : 일정한 규칙으로 파일에 이름을 명명하고 위치를 지정하는 체계

② 관계형 데이터베이스 : 데이터의 종류나 성격에 따라 행/열을 구성하는 정형화된 테이블로 구성된 집합체

③ 분산처리 데이터베이스 : 데이터의 집합이 여러 물리적 위치에 분산 배치되어 저장된 체계

* 데이터 적절성 검증

① 데이터 누락 : 누락/결측 여부 판단 및 누락 발생시 재수집

② 소스 데이터와 비교 : 수집↔소스 데이터와 사이즈, 개수를 비교 검증

③ 데이터 정확성 점검 : 유효하지 않은 데이터 존재여부 점검

④ 보안 사항 점검 : 개인정보 유무 등 보안 사항 점검

⑤ 저작권 점검 : 데이터의 저작권 등 법률적 검토 수행

⑥ 대량 트래픽 발생 여부 : 네트워크 및 시스템에 트래픽을 발생시키는 데이터 여부 검증

3) 데이터 변환

- 데이터를 하나의 표현 형식에서 다른 형식으로 변형하는 과정

- 비정형/반정형 데이터를 데이터 분석 용이성을 위해 정형화 하는 변환에 집중 필요

- 수집 데이터 속성 구조를 정확히 파악해야 툴을 이용한 데이터 저장 용이

- 데이터 변환 수행 자료

① 수집 계획서 ② 수집 솔루션 매뉴얼 ③ 데이터 변환 솔루션

④ 하둡 오퍼레이션 매뉴얼 ⑤ 소프트웨어 아키텍처 개념도

* 데이터 변환 방식의 종류

* 데이터베이스 구조 설계

- 수집 데이터를 바로 HDFS에 저장하거나 루비(ruby), 파이썬 등으로 변환가정을 거쳐 저장하기도 한다.

- 데이터베이스 구조 설계 절차 4단계

① DBMS 구축 여부 결정

- 정형 데이터일 경우 수집 솔루션을 거쳐 바로 데이터베이스에 저장

- 그외 데이터일 경우 데이터베이스 종류 선택 및 데이터에 맞게 모델링

- 저장 데이터베이스는 분석이 쉬운 RDBMS를 보편적으로 사용

② 저장 데이터베이스 결정 (상용/비상용/오픈소스)

③ DBMS 설치

④ 테이블 구조 설계

- 필요 데이터 속성 구체적으로 파악 후 테이블 구조 설계 및 테이블 생성

* 비정형/반정형 데이터의 변환

- 데이터 전처리나 후처리 수행 전, 비정형/반정형 데이터를 구조적 형태로 전환 및 저장하는 과정

① 수집 데이터 속성 구조 파악

: 수집할 데이터 파악(title, votes, body, tags, link 등) + 구조정의 + 적절한 변수명으로 구분

② 수집 절차에 대한 수행 코드 정의

: 추출할 정보들의 위치와 정보 구조 파악 → 필요 데이터 추출

③ 데이터 저장 프로그램 작성

: 생성된 데이터베이스 테이블에 수집 데이터를 저장하는 프로그램 작성

④ 데이터베이스에 저장

* 융합데이터베이스 설계

- 데이터 유형 및 의미 파악후 활용 목적별 융합 DB 설계

- 융합DB구성은 활용 업무 목적을 정확히 판단하는 것이 중요 + 쉽게 자동화 구축될 수 있도록 설계 필요

- 융합DB설계 단계

① 요구사항 분석

- 업무 활용 목적 및 방향 기반으로 어떤 데이터 속성들이 필요한지 파악 + 개인정보 등 민감정보 포함 여부 식별

② 데이터 표준화와 모델링

- 표준코드 / 표준 용어 / 데이터 도메인(데이터값이 공통으로 갖는 형식과 값의 영역) 등을 정의한다.

- 개념적 설계 : 엔티티(Entity)-애트리뷰트(Attribute)로 추출하여 엔티티간 관계를 ER다이어그램으로 그린다.

- 논리적 설계 : 작성된 ER다이어그램 기반으로 매핑하여 관계형 스키마를 만들어 낸다.

(엔티티&애트리뷰트 → ER다이어그램 → 관계형 스키마 예시)

4) 데이터 비식별화

* 비식별화 개요

- 개인정보를 식별할 수 있는 값들을 몇가지 규칙으로 대체하거나 가공하여 알아볼 수 없도록 하는 조치

- 비식별 조치를 적정하게 한 정보는 개인정보가 아닌 것으로 추정 → 빅데이터 분석에 활용 가능

- 식별자 (Identifier) : 개인 혹은 개인과 관련된 사물에 고유하게 부여된 값/이름

ex. 주민번호 / 이름 / 주소 / 생일 / 전화번호 / 의료번호 / 계좌번호 / 자동차 번호 / 이메일 등

- 속성자 (Attribute value) : 개인과 관련된 정보. 다른 정보와 쉽게 결합되는 경우 개인을 알아볼 수 있음.

ex. 성별 / 나이 / 국적 / 고향 / 혈액형 / 신장 / 몸무게 / 병명 / 학교 / 성적 / 경력 / 인터넷 로그 등

- 식별자, 속성자 모두 원칙적으로 삭제조치하며, 데이터 이용 목적상 필요시 비식별 조치 필수

* 비식별 조치 방법 ↓

- 여러가지 기법을 단독 혹은 복합적으로 활용 (단, 가명처리는 단독 활용된 경우 비식별 조치로 보기 어려움)

① 가명처리 (Pseudonymization)

- 장점 : 데이터의 변형 또는 변질 수준이 적음

- 단점 : 대체 값 부여 시에도 식별 가능한 고유 속성이 계속 유지됨

- 휴리스틱 가명화 : 몇 가지 규칙으로 대체하거나 사람 판단하에 자세한 정보를 숨기는 방법

식별자 분포나 사전 분석을 하지 않고 모든 데이터를 동일한 방법으로 가공 → 쉽게 이해&활용 가능

활용가능한 대체 변수에 한계 있음. 규칙이 노출되는 취약점이 있어 주의 필요

(홍길동 → 임꺽정, 서울 → 금성 과 같이 일반화된 이름 혹은 규칙으로 대체하여 표기)

- 암호화(Encryption) : 일정한 규칙의 알고리즘을 적용하여 개인정보를 대체.

통상적으로 복호화 키를 활용해 복화화 가능함으로 보안방안 필요 (일방향 암호화는 이론상 복호화 불가)

(주민등록번호, 여권번호, 의료보험번호, 사용자ID, 신용카드번호 등에 적용)

- 교환 방법(Swapping) : 기존 DB의 레코드를 사전에 정해진 외부 변수값과 연계하여 교환하는 방법

(사용자ID, 요양기관번호, 기관번호, 나이, 성별, 신체정보, 소득, 휴대전화번호, 주소 등에 적용)

② 총계처리 (Aggregation)

- 통계값 (전체 혹은 부분)을 적용하여 특정 개인을 식별할 수 없도록 함

- 장점 : 민감한 수치 정보의 비식별 조치 가능. 통계분석용 데이터셋 작성에 유리

- 단점 : 정밀 분석이 어려움. 집계 수량이 적을 경우 추론 가능

- 부분(Micro) 총계 : 일부 레코드만 총계 처리. 다른 데이터 대비 오차 범위가 큰 항목을 통계값으로 변환

(소득 분포 편차가 큰 40대 개인의 소득값을 평균값으로 대체하는 경우)

- 라운딩(Rounding) : 값에 올림/내림/반올림 기준을 적용하여 집계 처리 하는 방법

세세한 정보보다 전체 통계 정보가 필요한 경우 많이 사용

(나이를 20/30/40대로 표기하거나, 소득 값을 일부 절삭하여 3백만원, 4백만원 등으로 집계)

- 재배열(Rearrangement) : 기존 정보 값은 유지하면서 식별되지 않도록 재배열하는 방법

개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정보가 개인과 연결되지 않도록 함

(나이/소득을 개인별로 교환하여 재배치하여 비식별화 하여도 전체적인 통계 분석에는 영향이 없는 경우)

③ 데이터 삭제 (Data Reduction)

- 이름/전화번호/주소/생년월일/사진/생체정보/기타 등록번호(계좌번호, 이메일)를 주요 대상으로 함

- 장점 : 개인 식별요소의 전부 혹은 일부 삭제처리 가능

- 단점 ; 분석의 다양성과 분석 결과의 유효성, 신뢰성이 저하

- 식별자 (부분)삭제 : 원본 데이터에서 식별자를 단순 삭제하거나 일부만 삭제하는 방법

남아 있는 정보로도 분석의 유효성을 가지면서 (타 정보와 결합해서도) 개인을 식별할 수 없어야 함.

(생년월일 yy-mm-dd 를 분석 목적에 따라 yy로도 충분하다면 mm-dd는 삭제)

- 식별요소 전부삭제 : 잠재적 식별요소까지 전부 삭제하여 프라이버시 침해 위험 차단

개인정보 유출 가능성을 최대한 줄일 수 있지만 데이터의 유용성이 낮아지는 문제 발생

(유명인의 가족관계, 사건과 연간되어 있는 공개정보 등 잠재적 식별자 차단으로 연관 정보의 식별/결합 예방)

④ 데이터 범주화 (Data Suppression)

- 그룹의 대푯값 또는 구간값으로 변환(범주화) 하여 개인 식별 방지

- 장점 : 통계형 데이터 형식이므로 다양한 분석 및 가공 가능

- 단점 ; 정확한 분석 결과 도출 어려움. 데이터 범위 구간이 좁혀질 경우 추론 가능성 있음.

- 감추기 : 명확한 값을 숨기기 위해 평균 또는 범주값으로 변환.

but, 특수한 성질을 지닌 단체 데이터의 평균이나 범주 값을 그 단체에 속한 개인의 정보 추론 가능

(ex. 특정인물이 간염 환자 집단임을 표시하는 것은 특정인물이 간염 환자임을 공개하는 것과 동일)

- 랜덤 라운딩 : 수치 데이터를 임의의 수 기준으로 올림 또는 내림 하는 기범. 수치 데이터가 아니라도 적용가능.

(나이/우편번호와 같은 수치 정보 식별자의 임의의 앞자리 수만 나타내는 방법)

- 제어(Controlled) 라운딩 : 랜덤 라운딩 시, 행과 열의 합이 일치하지 않는 단점 해결하기 위해 일치시키는 방법

컴퓨터 프로그램으로 구현이 어렵고, 복잡한 통계표에는 적용이 어려움. 현장에서 잘 사용하지 않음.

- 범위 방법(Data Range) : 수치 데이터를 임의의 수 기준의 범우(range)로 설정하는 기법

(3,000만원을 3,000~4,000만원 으로 대체 표기하는 경우)

⑤ 데이터 마스킹 (Data Masking)

- 전부 또는 일부분을 대체 값(공백, 노이즈)로 변환하는 방법

- 장점 : 식별 요소 제거가 가능하며, 원 데이터 구조의 변형이 적음

- 단점 : 과도한 마스킹은 필요 목적에 활용이 어려우며, 마스킹 수준이 낮을 경우 추론이 가능함.

- 임의 잡음 추가(Adding Random Noise) : 식별 정보에 임의의 숫자 등 잡음을 추가 하는 방법

지정된 평균과 분산의 범위 내에서 잡음이 추가 됨으로 원 자료의 유용성을 해치지 않음

but 잡음 값 자체는 데이터 값과 무관하기 때문에 유효한 데이터로 활용이 어려움

(생년월일에 6개월의 잡음을 추가하여 기존 자료와 오차가 날 수 있게 하는 경우)

- 공백(blank)과 대체(impute) : 특정 항목의 일부 또는 전부를 공백 또는 대체문자(*, -)로 변형하는 방법

(생년월일을 19**-**-** 로 대체 표기하는 경우)

* 비식별화 조치 적정성 평가

- 개인정보 보호책임자 책임 하에 외부전문가가 참여하는 「비식별 조치 적정성 평가단」구성

- 적정성 평가시 최소한의 수단으로 k-익명성을 활용하며 필요시 추가적인 평가 모델(l-다양성, t-근접성) 활용

① k-익명성

- 공개된 데이터에 대한 연결공격 등 취약점 방어를 위해 제안된 비식별화 조치 최소의 기준

- 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보와 결합할 수 없도록 함.

- 데이터 집합 일부를 수정하여 모든 레코드가 자기 자신과 동일한(구별되지 않는) k-1개 이상의 레코드를 가진다

- 적정성 평가단은 적절한 k-값을 선택한 후 평가를 진행

- 예를들어. 지역코드, 연력, 성별, 질병으로 구분된 원천데이터를

지역코드 뒷자리 마스킹, 연령 범주화 등의 방법으로 비식별화 통해 동질집합(Equivalent class)로 만들어

공격자가 어떤 레코드가 공격 대상인지 알아낼 수 없게 하는 것

- k-익명성은 다양성의 부족, 공격자의 배경지식을 고려하지 않는 특징으로 아래 취약점을 가짐.

[동질성 공격(Homogeneity attack)] 데이터를 범주화 하더라도, 일부 정보들이 모두 같은 값을

가질 수 있기 때문에, 동일한 정보를 이용해 공격 대상의 정보를 알아내는 공격

[배경지식에 의한 공격(Background knowledge attack)] 데이터에 대한 공격자의 배경지식을 활용한 공격

ex. 여자는 전립선엽에 걸릴 수 없다는 배경지식이 있다면, 공격 대상이 여자인 경우 익명성 범위가 줄어듬

② l-다양성

- k-익명성에 대한 동질성 공격 및 배경지식 공격을 방어하기 위한 모델

- 주어진 데이터 집합에서 함께 비식별되는 레코드들은 동질 집합에서 최소 l개의 서로 다른 정보를 가지게 하는 것.

- 이로 인해 다양성의 부족으로 인한 공격 방어 가능 + 배경지식 공격에도 일정수준 방어 가능

ex. 지역코드와 연령을 비식별화하여 동질집합으로 만들 하면서(k-익명성) 질병이 3개 이상 포함되게 (l=3) 구성

[쏠림 공격(Skewness attack)] 정보가 특정값에 쏠려있으면 l-다양성 모델의 보호가 어려움

ex. 동질집합이 99개의 위암 양성과 1개의 위암음성 레코드로 구성되어있다면

공격자는 공격대상이 99%확률로 위암 양성임을 알 수 있음.

[유사성 공격(Similarity attack)] 비식별 조치된 레코드 정보가 비슷하다면 프라이버시 노출 가능

ex. 동질집합의 병명이 모두 다르지만 위궤양/급성위염/만성위염 이라면

공격 대상의 질병이 '위'관련 이라는 사실을 알 수 있음.

③ t-근접성

- l-다양성 모델의 쏠림, 유사성 공격을 보완하기 위한 모델로 값의 의미를 고려하는 모델

- 동질집합에서 특정 정보의 분포와 전체집합에서의 분포가 t 이하의 차이를 보여야 함

(= 동질집합에서 특정 정보의 분포가 전체집합에서의 분포와 비교했을때 특이하지 않도록 조치)

- t수치가 0에 가까울수록 전체데이터와 특정데이터의 분포 유사성이 강해짐으로 익명성 방어가 더 강함

- 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없어 정보 손실 문제도 크지 않음

ex. 전체 데이터의 급여 분포가 30~110 일 때, 특정 데이터의 급여 분포가 30~50이라면

공격자는 근사적인 급여값 추론이 어려움

5) 데이터 품질 검증

* 데이터 품질 관리

- Biz. 목표에 부합하는 데이터 분석을 위해 가치성 / 정확성 / 유용성 있는 데이터를 확보
+ 신뢰성 있는 데이터를 유지하는데 필요한 관리 활동
- 분석 결과의 신뢰성 → 분석 품질은 데이터 품질이 좌우
- 일원화된 프로세스 → 업무처리, 데이터 관리 효율화 필수
- 데이터 활용도 향상 → 고품질 데이터 확보로 데이터 이용률 향상 가능
- 양질의 데이터 확보 → 불필요한 데이터 제거 등 고품질 데이터 준비도 향상

* 정형데이터 5대 품질기준 및 진단 기법

정형 데이터는 아래 5대 품질기준을 기반으로 데이터 프로파일링 기법을 통해 진단

① 완전성(Completeness) : 필수 항목 누락 여부 확인

- 개별 완전성 : 필수항목 누락 여부 (ex. 고객아이디가 NULL일 수 없음)

- 조건 완전성 : 조건에 따른 컬럼 값 항상 존재 (ex. 기업고객은 사업자등록번호 NULL일 수 없음)

② 유일성(Uniqueness) : 데이터 항목은 유일해야하며 중복되어서는 안됨

- 단독 유일성 : 컬럼은 유일한 값 (ex. 고객 이메일 주소는 중복될 수 없음)

- 조건 유일성 : 업무 조건에 따라 컬럼 값은 유일 (ex. 타 강의와 동일한 강의일, 강의실, 강사 동일할 수 없음)

③ 유효성(Validity) : 데이터 항목은 정해진 유효범위 및 도메인 충족 필요
- 범위 유효성 : 유효한 데이터 범위 (ex. -360~360 외의 값을 가질 수 없음)
- 날짜 유효성 : 유효한 날짜값 (ex. 9999-12-31, 2008-02-31)
- 형식 유효성 : 정해진 형식 준수 (ex. 주민등록번호는 000000-0000000 형태)

④ 일관성(Consistency) : 데이터가 지켜야 할 구조, 값, 형태가 일관되고 정의/일치
- 기준코드 일관성 : 데이터가 지켜야 할 구조, 값 일관되었는지 (ex. 직업코드는 등록된 값만 활용)
- 참조 무결성 : 컬럼값이 참조 관계인 경우 무결성 유지 (ex. 대출원장번호는 대출상세내역에 존재해야하)
- 데이터 흐름 일관성 : 연관된 데이터 일치 여부 (ex. 운영계의 가입 고객 수 = DW의 고객 수)
- 칼럼 일관성 ; 중복 칼럼 활용 시 칼럼 값 일치 (ex. 주문DB 주문번호, 고객번호 = 배송DB 주문번호, 고객번호)

⑤ 정확성(Accuracy) : 실세계에 존재하는 객체의 표현값이 정확히 반영 필요
- 선후 관계 정확성 : 복수 칼럼값이 선후 관계인 경우 규칙 준수 여부 (ex. 시작일 < 종료일)
- 계산/집계 정확성 : 다수 칼럼의 계산된 칼럼값의 정확성 (ex. 월 매출액 = 일 매출액의 합)
- 최신성 : 정보의 발생/수집/갱신주기 유지 (ex. 고객의 현재값은 고객변경이력 마지막 ROW와 일치)
- 업무규칙 정확성 : 업무적으로 복잡하계 연관된 컬럼은 업무 규칙과 일치
(ex. 지급여부 Y이면 지급일자는 신청일보다 이전시점이어야 하고, NULL이 아니어야함)

* 비정형데이터 품질기준 및 진단 기법(w/ 동영상 데이터 사례)

비정형데이터는 아래 품질기준을 기반, 품질 세부 기준별 체크리스트 작성 / 진단

① 기능성(Functionality) - 적절성 / 정확성 / 상호 운용성 / 기능 순응성
: 특정 조건에서 사용될 때, 명시된 요구와 내재된 요구를 만족하는 기능을 제공하는 정도
(ex. 자막은 맞춤법 표기에 따라 작성되었는가? 압축 코덱은 표준을 준수하는가? 사운드와 자막 일치는?)

② 신뢰성(Reliability) - 성숙성 / 신뢰 순응성
: 규정된 조건에서 사용될 때, 규정된 신뢰 수준을 유지하거나 오류를 방지할 수 있는 정도
(ex. 결함 발생 횟수는? 신뢰성 관련 항목에 대한 표준 지침은 있는지?)

③ 사용성(Usability) - 이해성 / 친밀성 / 사용 순응성
: 규정된 조건에서 사용될 때, 사용자에 의해 이해되고 선호될 수 있게 하는 정도
(ex. 영상과 자막은 선명한가? 영상 포맷에 대한 표준 준수 여부? 표준 지침은 있는가?)

④ 효율성(Efficiency) - 시간 효율성 / 자원 효율성 / 효율 순응성
: 규정된 조건에서 사용될 때, 사용되는 자원의 양에 따라 요구된 성능을 제공하는 정도
(ex. 선택한 동영상이 기준 시간 내에 로딩 되는가? 효율성 표준 지침이 있는가?)

⑤ 이식성(Portability) - 적응성 / 공존성 / 이식 순응성
: 다양한 환경과 상황에서 실행될 가능성
(ex. 운영 환경 및 플레이어 호환 되는가? 타 SW 성능에 영향을 미치는가? 이식성 표준 지침이 있는가?)

* 데이터 품질 검증 수행.

- 품질 기준 및 진단기법을 활용, 품질 보증 체계 수립 → 품질 점검 → 품질검증 결과서 작성

- 품질 점검 수행 시 오류 수정이 용이하지 않을 경우 재수집 ↑

Posts List

[빅분기] PART1. 빅데이터 분석 기획 - 데이터 수집 및 저장 계획 - 데이터 수집 및 전환 (출제빈도 : 하)

PART1. 빅데이터 분석 기획

3. 데이터 수집 및 저장 계획

3-1. 데이터 수집 및 전환

1) 데이터 수집

* 비즈니스 도메인과 원천 데이터

* 내/외부 데이터

* 데이터 수집 기술 (★)

2) 데이터 유형 및 속성 파악

* 데이터 수집 세부 계획

* 데이터 위치 및 비용

* 수집되는 데이터 형태

* 데이터 저장 방식

* 데이터 적절성 검증

3) 데이터 변환

* 데이터 변환 방식의 종류

* 데이터베이스 구조 설계

* 비정형/반정형 데이터의 변환

* 융합데이터베이스 설계

4) 데이터 비식별화

* 비식별화 개요

* 비식별 조치 방법 ↓

* 비식별화 조치 적정성 평가

5) 데이터 품질 검증

* 데이터 품질 관리

댓글 쓰기

0 댓글

About me

팔로어

이 블로그 검색

Lecture Note

[빅분기] PART4. 빅데이터 결과 해석 - 분석결과 해석 및 활용 - 분석결과 활용 (출제빈도 : 하)

키워드

Posts List

[빅분기] PART1. 빅데이터 분석 기획 - 데이터 수집 및 저장 계획 - 데이터 수집 및 전환 (출제빈도 : 하)

PART1. 빅데이터 분석 기획

3. 데이터 수집 및 저장 계획

3-1. 데이터 수집 및 전환

1) 데이터 수집

* 비즈니스 도메인과 원천 데이터

* 내/외부 데이터

* 데이터 수집 기술 (★)

2) 데이터 유형 및 속성 파악

* 데이터 수집 세부 계획

* 데이터 위치 및 비용

* 수집되는 데이터 형태

* 데이터 저장 방식

* 데이터 적절성 검증

3) 데이터 변환

* 데이터 변환 방식의 종류

* 데이터베이스 구조 설계

* 비정형/반정형 데이터의 변환

* 융합데이터베이스 설계

4) 데이터 비식별화

* 비식별화 개요

* 비식별 조치 방법 ↓

* 비식별화 조치 적정성 평가

5) 데이터 품질 검증

* 데이터 품질 관리

관심 있을 만한 글

댓글 쓰기

0 댓글

About me

팔로어

이 블로그 검색

Lecture Note

[빅분기] PART4. 빅데이터 결과 해석 - 분석결과 해석 및 활용 - 분석결과 활용 (출제빈도 : 하)

Family Site

키워드