Posts List

[빅분기] PART2. 빅데이터 탐색 - 데이터 전처리 - 데이터 정제 (출제빈도 : 하)

    * 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

PART2. 빅데이터 탐색

1. 데이터 전처리

1-1. 데이터 정제

1) 데이터에 내재된 변수의 이해

* 데이터 관련 정의

 ① 데이터 (Data)
  - 이론을 세우는 사실 또는 자료, P/G을 운용할 수 있는 형태로 기호화, 수치화한 자료
  - 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정/조사/관찰하여 습득
 ② 단위 (Unit) : 관찰되는 항목 또는 대상
 ③ 관측값 (Observation) : 각 조사 단위별 기록정보 또는 특성
 ④ 변수 (Variable) : 각 단위에서 측정된 특성 결과
 ⑤ 원자료 (Raw Data) : 표본에서 조사된 최초의 자료

* 데이터의 종류

자료의 종류에 따라 결과를 도출하기 위한 적용 방법론이 다르기 때문에 자료 종류 파악 중요.

 ① 단변량(Univariate) 자료 : 자료 특성을 대표하는 변수가 하나
 ② 다변량(Multivariate) 자료 : 특성 변수가 2가지 이상
 ③ 질적(Qualitative) 자료 : 정성적 또는 범주형 자료라고도 함. 자료를 범주의 형태로 분류.
  - 명목(Nominal) 자료 : 측정대상이 범주나 종류에 의해 구분되어 지는 것을 수치 또는 기호로 분류(ex.지역번호)
  - 서열(Ordinal) 자료 : 명목자료와 비슷하나 수치나 기호가 서열을 나타내는 경우(ex.경기 순위 등)
 ④ 수치(Quantitative) 자료 : 정량적 또는 연속형 자료라고도 함. 숫자 크기에 의미 부여 가능.
  - 구간(Interval) 자료 : 명목/서열자료의 의미를 포함 + 변수간 산술적 의미 가지는 자료(ex.온도)
  - 비율(Ration) 자료 : 명목/서열/구간 자료 의미를 모두 가짐. 수치화된 변수에 비율 개념 도입 (ex. 무게)
 ⑤ 시계열(Time Seriese) 자료 : 일정한 시간간격 동안 수집된 시간개념이 포함된 자료(ex. 일별 주식 가격)
 ⑥ 횡적(Cross Sectional) 자료 : 횡단면 자료라고도 함. 단일 시점에서 여러 대상으로부터 수집된 자료. 
 ⑦ 종적(Longitudinal) 자료 : 시계열+횡적자료 특성 결합. 여러 개체를 여러 시점에서 수집한 자료.

* 데이터의 정제

수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정

 ① 필요성 및 정제과정을 거치지 않았을 때 문제점
  - 데이터로부터 원하는 결과나 분석을 얻기 위해 분석의 도구 또는 기법에 맞게 다듬는 과정 필요
  - 정제과정이 없으면 데이터 구성의 일관성이 없어 분석이 어려우며, 결과의 신뢰성 저하 발생

 ② 데이터 정제 과정 (Processing)
  - 다양한 매체로부터 데이터를 수집 / 변환 / 저장 / 품질확인 / 관리의 과정 필요
  - 비정형 데이터들이 많이 수집되는데, 기본적으로 구조화된 정형 데이터 형태로 변환 후 수정 과정 진행
  - 기존 시스템 내의 데이터와 비교 분석이 필요한 경우 레거시 데이터와 통합/변환 과정 발생
  [수집] 데이터 입수 방법 및 정책 결정, 입수 경로 구조화, 집계(Aggregation), 저장소 결정, 전처리
  [변환] ETL, 일반화(Generalization), 정규화(Normalization)
  [교정] 결측치의 처리, 이상치(outlier) 처리, 노이즈 처리  ※ 비정형 데이터 수집 시 특히 필수
  [통합] 분석이 용이하도록 기존 또는 유사 데이터와 연계 통합. 레거시 데이터와 함께 분석이 필요할 경우 수행

 ③ 데이터 정제의 전/후처리
  - 전처리(Pre processing) : 데이터 저장 전의 처리과정, 대상 데이터와 입수 방법 결정 및 저장방식 장소 선정
  - 후처리(Post processing) : 저장 후의 처리과정, 저장 데이터의 품질관리 등 과정을 포함

2) 데이터 결측값(Missing value) 처리

결측치를 임의로 제거시 분석 데이터의 직접 손실로 분석에 필요한 유의수준 데이터 수집에 실패 가능성 있음
결측치를 임의로 대체시 데이터의 편향(bias)가 발생하여 신뢰성 저하 가능성 있음
상기의 문제를 피해는 데이터에 기반한 방법으로 결측값 처리 필요

* 결측 데이터의 종류

 ① 완전 무작위 결측 (MCAR : Missing Completely At Random)
  - 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무 연관이 없는 경우
  - 결측 데이터를 가진 모든 변수가 MCAR이라면 대규모 데이터에서 단순 무작위 표본추출로 처리 가능
 ② 무작위 결측 (MAR : Missing At Random)
  - 결측데이터가 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관이 없는 경우
 ③ 비 무작위 결측 (NMAR : Not MAR)
  - 결측변수값이 결측여부(이유)와 관련이 있는 경우 (ex. 소득이 적은 가구가 소득란을 NULL로 제출한 경우)

 ※ 나이(X)대별 성별(Y)과 체중(Z) 분석 모델 가정
    - X,Y,Z 관계없에 Z가 없는 경우 : 완전 무작위 결측(MCAR)
    - 여성(Y)은 체중(Z)공개를 꺼림 : Z가 누락될 가능성이 Y에만 의존, Z와는 연관없음 → 무작위 결측(MAR)
    - 젊은(X) 여성(Y)은 체중 공개 꺼림 : 마찬가지로 다른 변수와 연관됐지만 무작위 결측(MAR)
    - 무거운(Z)사람 체중(Z)공개 꺼림 : Z가 누락될 가능성이 Z값 결측값에 달려있음 → 비 무작위결측(NMAR)

* 결측값 유형의 분석 및 대치

 - 실제 데이터셋에서 결측치가 어떤 유형으로 분류되는지 분석 후 결과에 따라 처리 방법 선택 필요
 - 일반적으로 MCAR 하에 처리. = 불완전한 자료는 무시하고 완전한 관측 자료만을 표준 분석 시행
 - but. 결측치 존재하는 데이터로 분석하면 효율성, 자료처리 복잡성, 편향 문제 발생

 단순 대치법(Simple Imputation) : MCAR, MAR로 가정하고 처리하는 방식
  - 완전 분석 : 불완전한 자료는 완전히 무시하고 분석 수행. 분석 용이성 높으나 효율성 상실, 통계적 추론 타당성 문제
  - 평균 대치법 : 평균으로 결측치 대치. 효율성 높으나 통계량 표준오차 과소 추정. (=비조건부 평균 대치법)
  - 회귀 대치법 : 회귀분석에 의한 예측치로 결측치 대치하는 방법. (=조건부 평균 대치법)
  - 단순확률 대치법 : 확률 추출에 의해 전체 데이터 중 무작위로 대치하는 방법 (=Hot dek 방법)
     ※ 평균 대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법
  - 최근접(NN) 대치법 : 전체 표본 몇 개 대체군으로 분류, 각 층 응답자료 정렬, 결측값 이전의 응답을 결측치 대치응답값이 여러번 사용될 가능성이 있음.(단점)

 ② 다중 대치(Multiple Imputation)
  - 단순 대치법을 복수 시행, 통계적 효율성 및 일치성 문제 보완.
  - 복수 개(n)의 단순대치를 통해 n개의 새로운 자료를 생성 및 시행, 시행결과 얻어진 통계량에 대해 결합/통합
   [1단계] 대치(Imputation) : 복수의 대치에 의한 결측을 대치한 데이터 생성
   [2단계] 분석(Analysis) : 복수 개의 데이터셋에 대한 분석 시행
   [3단계] 결합(Combination) : 분석결과에 대한 통계적 결합을 통해 결과 도출

3) 데이터 이상값(Outlier) 처리

데이터 수집 과정에서 오류가 발생해 정상 범주(데이터 전체 패턴)에서 벗어난 이상값 발생 가능
오류가 아니더라도 굉장히 극단적인 값의 발생으로 인한 이상치 존재 가능
결측치와 마찬가지로 분석결과의 왜곡이 발생할 수 있음으로 처리 작업 필요

* 이상치 종류 및 발생 원인

 ① 이상치 종류
  - 단변수 이상치 : 데이터 하나의 분포에서 발생하는 이상치
  - 다변수 이상치 : 복수의 연결된 데이터 분포공간에서 발생하는 이상치

 ② 이상치 발생 원인
  - 비자연적 이상치 (Artificial/Non-natural Outlier)
    : 입력실수 / 측정오류 / 실험오류 / 의도적 / 자료처리오류 / 표본(sampling)오류
     ※ 의도적 이상치 (ex. 키 조사할 때 의도적으로 키를 높게 기입하는 경우)
        자료처리 오류 : 분석 전 전처리에서 발생하는 에러
  - 상기 경우 이외는 자연적 이상치(Natural Outlier)

* 이상치 문제점

 ① 기초(통계적) 분석결과 신뢰도 저하 : 평균, 분산 등에 영향을 줌. but. 중앙값은 영향이 적음
 ② 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하
  - 검정, 추정 등의 분석, 회귀분석 등이 영향을 받음
  - 이상치가 비무작위(non-randomly)하면 데이터 정상성(normality) 감소 → 데이터 자체 신뢰성 저하

* 이상치 탐지

종속변수가 단변량인지 다변량인지 분포를 고려 + 모수적(Parametric) 또는 비모수적인지에 따라 고려
※ 모수적 vs. 비모수적
 - 표본이 많아 비교군이 모두 정규분포를 띈다면 두 집단은 평균을 비교함으로써 비교 가능. (모수적 방법)
 - 표본이 적거나 정규분포를 띄지 않는다고 증명된 경우 모수의 특성을 이용하지 못함. 
   자료를 크기 순으로 배열하여 순위를 매긴다음 순위의 합을 통해 차이 비교하는 등(=순위합검정) (비모수적 방법)

시각화를 통한 방법 : 비모수적, 단변량(2변량)의 경우
 - Box plot, 줄기-잎(Stem & Leaf) 다이어그램, 산점도(Scatter plot, 비모수적 2변량인 경우)

Z-Score 통한 방법 : 모수적 단변량 또는 저변량의 경우
 - 정규화를 통해 특정 threshold를 벗어난 경우 이상치로 판별
   ※ | Z | > Zthr,  Z = (X - μ) / σ     (μ : 평균, σ : 표준편차)
 - 통상적 threshold는 1σ(68.27%), 2σ(95.45%) 3σ(99.73) 사이 등을 사용 (정밀도 제어)

밀도기반 클러스터링(DBSCAN : Density based Spatial Clustering of App. with Noise)
 - 비모수적 다변량의 경우 군집간 밀도를 이용해 특정 거리 내의 데이터 수가 일정 이상이면 군집(정상)으로 정의

고립 의사 나무 방법(Isolation Forest)
 - 비모수적 다변량의 경우 의사결정나무 기반으로 정상치 단말노드보다 이상치의 노드에 이르는 길이가 더 짧은 성질을 이용

댓글 쓰기

0 댓글