Posts List

[빅분기] PART2. 빅데이터 탐색 - 데이터 탐색 - 데이터 탐색의 기초 (출제빈도 : 중)

      * 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

PART2. 빅데이터 탐색

2. 데이터 탐색

2-1. 데이터 탐색의 기초

1) 탐색적 데이터 분석(EDA : Exploratory Data Analysis)

자료를 관찰하고 이해하는 과정, 본격적 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정

* EDA 필요성

 - 데이터 분포 및 값을 검토함으로써 내재된 잠재적 문제에 대해 인식하고 해결안 도출 가능
   (문제점 발견 시 분석 전 데이터 수집 의사를 결정 할 수 있음.)
 - 다양한 각도에서 살펴보는 과정을 통해 문제정의 단계에서 인지 못한 새로운 양상/패턴 확인 가능
   (새로운 양상 발견 시 가설 수정 또는 새로운 가설 설립)

* 분석 과정 및 절차

 ① 변수 확인 : 분석 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 가지는지 확인
 ② 문제성 확인 : 데이터 결측치, 이상치 유무 확인, 분포상의 이상 형태 Head 또는 Tail 부분 확인
 ③ 기초통계산출 : 기초통계산출을 통해 개별 속성값이 예상한 범위 분포를 가지는지 확인
 ④ 관계속성 확인 : 개별 데이터 간 속성 관찰에서 보지 못한 데이터 간의 속성(ex.상관관계) 확인

* 이상치 검출

이상치의 원인을 파악하고 어떻게 대처해야 할지(제어, 대체, 유지 등)를 판단한다. 
아래는 이상치 발견하는 기법 4가지

 ① 개별 데이터 관찰
  - 데이터 값을 눈으로 살펴보면서 전체적인 추세와 특이사항 관찰. 
  - 앞부분만 보는 것이 아니라 뒤 혹은 무작위로 표본 추출하여 관찰 필요. 
  - 표본의 크기가 작을 경우 이상치를 발견하지 못 할 수 있다.

 ② 통계값 활용
  - 데이터 중심을 알기 위한 평균(mean), 중앙값(median), 최빈값(mode)
  - 데이터 분산도를 알기 위한 범위(range), 분산(variance)
  - 이상치 제거를 위해 통계지표를 확인할 수 있다. (IQR 방법 혹은 정규분포를 활용하는 방법)
   * IQR(Inter Quantile Range) 방법 : 사분위범위를 이용한 이상치 제거 방법
    - 전체 데이터를 정확히 4등분(25/50/75/100%)로 나눈다 → 1/2/3/4사분위수
    - IQR = 1사분위수와 3사분위수 값의 차이 = Q3 - Q1
    - 최대값 = 3사분위수 + 1.5 x IQR
    - 최소값 = 1사분위수 - 1.5 x IQR
    - 최대/최소 밖의 값들을 이상치로 간주한다. 터키펜스(Turkey Fences)라고도 부름.
   * 정규분포를 활용하는 방법 : 평균과 분산을 이용한 이상치 제거 방법
    - μ(평균)에서 특정 σ(표준편차) 구간을 벗어나는 값을 이상치로 판단한다.

 ③ 시각화 활용 : 확률밀도함수, 히스토그램, 점플롯, 워드클라우드, 시계열 차트, 지도 등

 ④ 머신러닝 기법 활용 : 대표적으로 K-means를 통해 이상치 확인 가능

2) 상관관계(Correlation) 분석

* 변수 간 상관성 분석

두 변수 간에 어떤 선형적 관계를 갖고 있는지 분석하는 방법. 두 변수는 독립적이거나 상관관계일 수 있으며, 두 변수 간의 관계의 강도를 상관관계(Correlation)이라 함.

 ① 단순(Simple) 상관분석 : 두 개의 변수가 어느 정도 관계가 있는지 측정
 ② 다중(Multiple) 상관분석 : 3개 이상의 변수간의 상관관계를 측정
  - 편(Partial) 상관관계분석 : 다중상관분석에서 다른 변수와의 관계를 고정하고 두 변수의 관계 강도를 측정

* 상관분석 기본 가정

 ① 선형성 : 두 변인(X, Y)의 관계가 직선적인지를 알아 보는 것. 분포를 나타내는 산점도로 확인 가능
 ② 동변량성(=등분산성, Homoscedasticity)
  - X와 관계없이 Y의 흩어진 정도가 같은 것을 의미. (반대말은 이분산성, Heteroscedasticity)
  - 산포도가 특정 구간에 상관없이 퍼진 정도가 일정할 때 등변량성을 띈다고 표현.
 ③ 두 변인의 정규분포성 : 두 변인의 측정지 분포가 모집단에서 모두 정규 분포를 이루는 것
 ④ 무선독립표본 : 모집단에서 표본을 뽑을 때 표본대상이 확률적으로 선정된다.

* 상관분석 방법

 ① 피어슨 상관계수 (Pearson Correlation Coefficient, Persons's r)
  - X, Y간 선형 상관관계를 계량한 수치 (-1 ~ +1)
   ※ -1 일수록 강한 음의 선형상관관계, +1 일수록 강한 양의 선형상관관계, 0은 선형상관관계 없음.

 ② 스피어만(Spearman) 상관계수
  - 데이터가 서열자료인 경우, 즉 값 대신 순위를 이용하는 경우 사용하는 상관관계
  - 데이터를 작은 것부터 차례로 순위를 매겨 서열 순위로 바꾼 뒤 순위를 이용해 상관관계를 구함
  - 두 변수 간의 연관 관계가 있는지 없는지 밝혀줌. 
  - 자료에 이상점이 있거나 표본크기가 작을 때 유용
  - 크기 순으로 정한 두 변수의 차이가 클수록 스피어만 상관계수의 값은 커짐
    → 한 변수의 값이 커지면 다른 변수의 값도 단조적(monotonic)으로 커지는지 확인 가능
    ※ 단조관계 : 두 변수가 동일한 방향으로 변화하지만 직선 형태가 아닌 것
  - 1에 가까울 수록 두 변수는 단조적 상관성(커지면 같이 증가), 0에 가까우면 상관성이 없음

3) 기초통계량의 추출 및 이해

* 기초 통계량 3가지

 ① 중심경향선(Central Tendency) : 평균(mean), 중앙값(median), 최빈값(mode)
 ② 산포도(Dispersion)-퍼진정도 : 분산(variance), 표준편차(std), 사분위 편차, 변동계수
 ③ 분포(Distribution)-모양 : 왜도(skewness), 첨도(kurtosis)

* 중심화 경향 기초 통계량

 ① 산술(Arithmetic) 평균(Mean) : 모든 자료들을 합한 후 전체 자료수로 나누어 계산하는 일반적인 평균
  - 모(population)평균 (μ) : 모집단 전체 자료의 산술 평균
  - 표본(sample)평균 : 추출된 표본 전체의 산술 평균 (x 상단 바(bar)로 표현)

 ② 기하(Geometric) 평균
  - N개 자료에 대해 관측치를 곱한 후 n 제곱근으로 표현
  - 다기간의 수익률에 대한 평균 수익, 평균물가상승 등을 구할 때 사용
  예시) 10,000원 주식이 10% 상승 후 10% 하락한 경우 산술평균적인 개념으로는 가격 변동 없는 것처럼 착각
        기하평균식을 사용하면 √(1.1x0.9) = 0.99 로 계산되어 9,900원을 도출할 수 있음.

 ③ 조화(Harmonic) 평균
  - 각 요소의 역수의 산술평균을 구한 후 다시 역수를 취함
  - 변화율 등의 평균을 구할 때 사용
  - 자료가 동일할 경우 조화평균 = 산술평균, 자료가 동일하지 않으면 조화 ≤ 기하 ≤ 산술 관계 가짐

 ④ 중앙값(Median)
  - 자료를 크기 순으로 나열할 때 가운데 위치한 값
  - 자료의 수가 n개 일 때, n이 홀수이면 (n+1)/2 번째 자료값이 중앙값, 짝수이면 n/2 과 n/2 + 1 번째의 평균을 사용

 ⑤ 최빈값(Mode) : 가장 노출 빈도가 높은 자료. 질적/양적자료 모두에 사용

 ⑥ 분위수(Quantile)
  - 자료의 위치를 표현하는 수치. 크기순서대로 배열 후 그 자료를 분할하는 역할을 하는 위치의 수치를 계산
  - 몇 등분 하느냐에 따라 사분위수(qurtile), 오분위수(quintile), 십분위수(decile), 백분위수(percentile)
  ex.) 동일한 비율로 4등분 (사분위수) 할 때 Q1(제1사분위수) : 25%, Q2(제2사분위수) : 50% ...
  - N개 자료가 존재할 때 백분위수로로 분위수위치를 나타내는 식 = (N+1)y/100

* 산포도(=분산도, Degree Dispersion)

자료의 퍼짐 정도를 표현하는 기초 통계량. 중심 위치의 측도만으로 자료의 분포에 대한 충분한 정보를 얻을 수 없음으로 중심 경향도 수치에서 자료가 얼마나 떨어져 있는지 측정하는 척도 필요

 ① 분산(Variance), 표준편차(Standard Deviation)
  - 분산(σ^2) : 평균을 중심으로 밀집되거나 퍼짐 정도, 편차 제곱의 산술 평균
  - 표준편차(σ) : 분산의 단위가 모두 제곱되는데, 이를 해석하기가 곤란한 단점 보완. 분산의 제곱근
  - 수리적으로 다루기 쉬우며, 개개의 자료값에 대한 정보를 반영
  - 특이점에 매우 큰 영향을 받음.
  - 분산이 클수록 각 자료값이 평균으로부터 넓게 흩어져 있음
  - 미지의 모분산을 추론할 때 많이 사용

 ② 범위(Range)
  - 데이터 간의 최대값, 최솟값의 차이.
  - 동일한 범위를 갖더라도 자료의 분포모양은 다를 수 있음 (주의)

 ③ 평균 (절대) 편차 (Mean (Absolute) Deviation, MAD, MD)
  - 자료값과 표본평균과의 편차의 절대값에 대한 산술평균
  - 이상치에 영향을 적게 받음. 개개의 자료값에 대한 정보 반영
  - 절대값을 사용하기 때문에 수리적으로 다루기 부적절함 (미분불가)
  - 절대 편차의 최소값을 갖는 자료값은 평균이 아닌 중앙값
  - 평균 편차가 클수록 자료는 폭넓게 분포
  예시) 투자수익률이 12%, 20%, 23%, 25%, 30% 일때,
  산술 평균은 22%, 평균절대편차는 4.8% → 개별 수익률은 평균 22%이며, ±4.8% 편차 발생

 ④ 사분위범위(Inter Quartile Range, IQR)
  - 자료를 크기순으로 배열 후 사분위수로 나눈뒤, Q3-Q1을 사분위수로 정의. 
  - 사분위범위는 주로 이상치 판단에 사용되는 것으로 최대최소 밖이면 이상치로 간주
    최대값 = 3사분위수 + 1.5 x IQR
    최소값 = 1사분위수 - 1.5 x IQR
  예시) 8, 10, 12, 13, 15, 17, 17, 18, 19, 23, 24 자료의 
  Q1 = (11+1)x(25/100)=3 이므로 3번째 수치인 12
  Q3 = (11+1)x(75/100)=9 이므로 9번째 수치인 19
  IQR = Q3 - Q1 = 7
  최대값 = 19 + 1.5 x 7 = 29.5
  최소값 = 12 - 1.5 x 7 = 1.5
  
 ⑤ 변동계수(Coefficient of Variance, CV)
  - 평균을 중심으로 한 상대적인 산포의 척도를 나타내는 수치
  - 측정 단위 동일하지만 평균이 큰 차이를 보이는 두 집단에 대한 산포의 척도를 비교할 때 많이 사용
  - 변동계수가 클수록 상대적으로 넓게 분포를 이룸
  예시) 자료A의 수익률 평균 30%, 표준편차는 4% / 자료B의 평균 15%, 표준편차 3%
  자료A의 CV = 4/30*100 = 13.3%
  자료B의 CV = 3/15*100 = 20%
  → 자료B의 수익의 변동이 더 크다고 판단할 수 있음

* 자료의 분포형태(Shape of Distribution)

 ① 왜도(Skewness) : 분포가 치우친(비대칭, asymmetry) 정도를 나타내는 통계적 척도
  - 오른쪽으로 더 길면(치우치면) (+), 평균 < 중앙값 < 최빈값
  - 분포가 좌우 대칭이면 (0) 평균 = 중앙값 = 최빈값
  - 왼쪽으로 더 길면 (-), 평균 > 중앙값 > 최빈값
  * 피어슨의 비대칭 계수(Pearson's skewness coefficients)
   - 칼 피어슨이 비대칭도를 간단히 측정하기 위한 계산법. 특징은 같음
   - Cs = 3 * (평균 - 중앙값 혹은 최빈값) / 표준편차
     → 중앙값 = 최빈값 = 평균이 일치하면 Cs = 0으로 정규분포를 이룬다
     → Cs > 0 이면 왼쪽으로 치우치고(오른쪽으로 긴 꼬리) 정적편포라 함
     → Cs < 0 이면 오른쪽으로 치우치고(왼쪽으로 긴 꼬리) 부적편포라 함

 ② 첨도(Kurtosis) : 분포의 뾰족한(peakedness) 정도를 나타내는 통계적 척도
  - 첨도의 값이 3미만인 경우 평평한 분포, 3이면 정규분포, 3이 넘으면 뾰족한 분포로 해석

4) 시각적 데이터 탐색 

심화된 데이터 시각화는 PART4에서 상세히 다루므로 간단히 작성

* 통계적 시각화 도구

 ① 도수분포표(Frequency Table) : 수집된 자료를 표로 정리한 것. 질적인 자료는 도수나 상대도수로 표현
  - 도수 : 질적자료의 경우 각 범주별 빈도
  - 상대도수 : 도수 / 전체자료 수 (합 = 1.0)
  - 양적 자료는 전체 자료를 그룹화하고 각 그룹별 속하는 자료의 수를 계산하여 도수 및 상대도수로 표현

 ② 히스토그램(Histogram) : 도수분포표를 이용, 표본의 자료분포를 나타낸 그래프

 ③ 막대그래프(Bar Chart) : 각 자료값에 해당하는 도수 또는 상대도수를 그림으로 표현

 ④ 파이차트(Pie Chart) : 각 자료값의 상대도수로 기하여 원의 면적에 상대크기별로 나타낸 그래프

 ⑤ 산점도(Scatter Plot) : 직교좌표계를 이용해 두 변수간의 관계를 나타내는 방법
  - 이상치를 확인하는 경우에 유용함.

 ⑥ 줄기-잎 그림(Stem-and-Leaf Diagram)
  - 통계적 자료를 표 형태와 그래프 형태의 혼합된 방법으로 나타내는 것
  - 자료의 정리가 가능하고 자료의 구조에 대한 정보 파악이 가능한 도구

 ⑦ 상자 수염 그림(Box Plot)
  - 자료로부터 얻어낸 통계량인 5가지 요약 수치(다섯 숫자 요약, Five-number summary)를 가지고 그림.
    ※ 다섯 숫자 요약 : 최솟값, Q1, Q2, Q3, 최대값
   step1. 데이터에서 각 사분위수 계산
   step2. 제1사분위와 제3사분위를 밑변으로 하는 직사각형을 그리고 제2사분위에 해당하는 위치에 선분을 그림
   step3. 사분위범위(IQR=Q3-Q1)을 계산
   step4. Q3과 차이가 1.5IQR 이내인 값 중 최대값을 Q3과 직선 연결, 
           Q1과 차이가 1.5IQR 이내인 값 중 최솟값을 Q3과 직선 연결
   step5. Q3과 차이가 1.5IQR 이상 초과하는 값과 Q1과 1.5IQR 이상 미달하는 값은 
           점/원/별표 등으로 따로 표시 (이상치로 판단)

댓글 쓰기

0 댓글