* 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.
PART2. 빅데이터 탐색
2. 데이터 탐색
2-1. 데이터 탐색의 기초
1) 탐색적 데이터 분석(EDA : Exploratory Data Analysis)
자료를 관찰하고 이해하는 과정, 본격적 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정
* EDA 필요성
- 데이터 분포 및 값을 검토함으로써 내재된 잠재적 문제에 대해 인식하고 해결안 도출 가능
(문제점 발견 시 분석 전 데이터 수집 의사를 결정 할 수 있음.)
- 다양한 각도에서 살펴보는 과정을 통해 문제정의 단계에서 인지 못한 새로운 양상/패턴 확인 가능
(새로운 양상 발견 시 가설 수정 또는 새로운 가설 설립)
* 분석 과정 및 절차
① 변수 확인 : 분석 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 가지는지 확인
② 문제성 확인 : 데이터 결측치, 이상치 유무 확인, 분포상의 이상 형태 Head 또는 Tail 부분 확인
③ 기초통계산출 : 기초통계산출을 통해 개별 속성값이 예상한 범위 분포를 가지는지 확인
④ 관계속성 확인 : 개별 데이터 간 속성 관찰에서 보지 못한 데이터 간의 속성(ex.상관관계) 확인
* 이상치 검출
이상치의 원인을 파악하고 어떻게 대처해야 할지(제어, 대체, 유지 등)를 판단한다.
아래는 이상치 발견하는 기법 4가지
① 개별 데이터 관찰
- 데이터 값을 눈으로 살펴보면서 전체적인 추세와 특이사항 관찰.
- 앞부분만 보는 것이 아니라 뒤 혹은 무작위로 표본 추출하여 관찰 필요.
- 표본의 크기가 작을 경우 이상치를 발견하지 못 할 수 있다.
② 통계값 활용
- 데이터 중심을 알기 위한 평균(mean), 중앙값(median), 최빈값(mode)
- 데이터 분산도를 알기 위한 범위(range), 분산(variance)
- 이상치 제거를 위해 통계지표를 확인할 수 있다. (IQR 방법 혹은 정규분포를 활용하는 방법)
* IQR(Inter Quantile Range) 방법 : 사분위범위를 이용한 이상치 제거 방법
- 전체 데이터를 정확히 4등분(25/50/75/100%)로 나눈다 → 1/2/3/4사분위수
- IQR = 1사분위수와 3사분위수 값의 차이 = Q3 - Q1
- 최대값 = 3사분위수 + 1.5 x IQR
- 최소값 = 1사분위수 - 1.5 x IQR
- 최대/최소 밖의 값들을 이상치로 간주한다. 터키펜스(Turkey Fences)라고도 부름.
* 정규분포를 활용하는 방법 : 평균과 분산을 이용한 이상치 제거 방법
- μ(평균)에서 특정 σ(표준편차) 구간을 벗어나는 값을 이상치로 판단한다.
③ 시각화 활용 : 확률밀도함수, 히스토그램, 점플롯, 워드클라우드, 시계열 차트, 지도 등
④ 머신러닝 기법 활용 : 대표적으로 K-means를 통해 이상치 확인 가능
2) 상관관계(Correlation) 분석
* 변수 간 상관성 분석
두 변수 간에 어떤 선형적 관계를 갖고 있는지 분석하는 방법. 두 변수는 독립적이거나 상관관계일 수 있으며, 두 변수 간의 관계의 강도를 상관관계(Correlation)이라 함.
① 단순(Simple) 상관분석 : 두 개의 변수가 어느 정도 관계가 있는지 측정
② 다중(Multiple) 상관분석 : 3개 이상의 변수간의 상관관계를 측정
- 편(Partial) 상관관계분석 : 다중상관분석에서 다른 변수와의 관계를 고정하고 두 변수의 관계 강도를 측정
* 상관분석 기본 가정
① 선형성 : 두 변인(X, Y)의 관계가 직선적인지를 알아 보는 것. 분포를 나타내는 산점도로 확인 가능
② 동변량성(=등분산성, Homoscedasticity)
- X와 관계없이 Y의 흩어진 정도가 같은 것을 의미. (반대말은 이분산성, Heteroscedasticity)
- 산포도가 특정 구간에 상관없이 퍼진 정도가 일정할 때 등변량성을 띈다고 표현.
③ 두 변인의 정규분포성 : 두 변인의 측정지 분포가 모집단에서 모두 정규 분포를 이루는 것
④ 무선독립표본 : 모집단에서 표본을 뽑을 때 표본대상이 확률적으로 선정된다.
* 상관분석 방법
① 피어슨 상관계수 (Pearson Correlation Coefficient, Persons's r)
- X, Y간 선형 상관관계를 계량한 수치 (-1 ~ +1)
※ -1 일수록 강한 음의 선형상관관계, +1 일수록 강한 양의 선형상관관계, 0은 선형상관관계 없음.
② 스피어만(Spearman) 상관계수
- 데이터가 서열자료인 경우, 즉 값 대신 순위를 이용하는 경우 사용하는 상관관계
- 데이터를 작은 것부터 차례로 순위를 매겨 서열 순위로 바꾼 뒤 순위를 이용해 상관관계를 구함
- 두 변수 간의 연관 관계가 있는지 없는지 밝혀줌.
- 자료에 이상점이 있거나 표본크기가 작을 때 유용
- 크기 순으로 정한 두 변수의 차이가 클수록 스피어만 상관계수의 값은 커짐
→ 한 변수의 값이 커지면 다른 변수의 값도 단조적(monotonic)으로 커지는지 확인 가능
※ 단조관계 : 두 변수가 동일한 방향으로 변화하지만 직선 형태가 아닌 것
- 1에 가까울 수록 두 변수는 단조적 상관성(커지면 같이 증가), 0에 가까우면 상관성이 없음
3) 기초통계량의 추출 및 이해
* 기초 통계량 3가지
① 중심경향선(Central Tendency) : 평균(mean), 중앙값(median), 최빈값(mode)
② 산포도(Dispersion)-퍼진정도 : 분산(variance), 표준편차(std), 사분위 편차, 변동계수 등
③ 분포(Distribution)-모양 : 왜도(skewness), 첨도(kurtosis)
* 중심화 경향 기초 통계량
① 산술(Arithmetic) 평균(Mean) : 모든 자료들을 합한 후 전체 자료수로 나누어 계산하는 일반적인 평균
- 모(population)평균 (μ) : 모집단 전체 자료의 산술 평균
- 표본(sample)평균 : 추출된 표본 전체의 산술 평균 (x 상단 바(bar)로 표현)
② 기하(Geometric) 평균
- N개 자료에 대해 관측치를 곱한 후 n 제곱근으로 표현
- 다기간의 수익률에 대한 평균 수익률, 평균물가상승률 등을 구할 때 사용
예시) 10,000원 주식이 10% 상승 후 10% 하락한 경우 산술평균적인 개념으로는 가격 변동 없는 것처럼 착각
기하평균식을 사용하면 √(1.1x0.9) = 0.99 로 계산되어 9,900원을 도출할 수 있음.
③ 조화(Harmonic) 평균
- 각 요소의 역수의 산술평균을 구한 후 다시 역수를 취함
- 변화율 등의 평균을 구할 때 사용
- 자료가 동일할 경우 조화평균 = 산술평균, 자료가 동일하지 않으면 조화 ≤ 기하 ≤ 산술 관계 가짐
④ 중앙값(Median)
- 자료를 크기 순으로 나열할 때 가운데 위치한 값
- 자료의 수가 n개 일 때, n이 홀수이면 (n+1)/2 번째 자료값이 중앙값, 짝수이면 n/2 과 n/2 + 1 번째의 평균을 사용
⑤ 최빈값(Mode) : 가장 노출 빈도가 높은 자료. 질적/양적자료 모두에 사용
⑥ 분위수(Quantile)
- 자료의 위치를 표현하는 수치. 크기순서대로 배열 후 그 자료를 분할하는 역할을 하는 위치의 수치를 계산
- 몇 등분 하느냐에 따라 사분위수(qurtile), 오분위수(quintile), 십분위수(decile), 백분위수(percentile)
ex.) 동일한 비율로 4등분 (사분위수) 할 때 Q1(제1사분위수) : 25%, Q2(제2사분위수) : 50% ...
- N개 자료가 존재할 때 백분위수로로 분위수위치를 나타내는 식 = (N+1)y/100
* 산포도(=분산도, Degree Dispersion)
자료의 퍼짐 정도를 표현하는 기초 통계량. 중심 위치의 측도만으로 자료의 분포에 대한 충분한 정보를 얻을 수 없음으로 중심 경향도 수치에서 자료가 얼마나 떨어져 있는지 측정하는 척도 필요
① 분산(Variance), 표준편차(Standard Deviation)
- 분산(σ^2) : 평균을 중심으로 밀집되거나 퍼짐 정도, 편차 제곱의 산술 평균
- 표준편차(σ) : 분산의 단위가 모두 제곱되는데, 이를 해석하기가 곤란한 단점 보완. 분산의 제곱근
- 수리적으로 다루기 쉬우며, 개개의 자료값에 대한 정보를 반영
- 특이점에 매우 큰 영향을 받음.
- 분산이 클수록 각 자료값이 평균으로부터 넓게 흩어져 있음
- 미지의 모분산을 추론할 때 많이 사용
② 범위(Range)
- 데이터 간의 최대값, 최솟값의 차이.
- 동일한 범위를 갖더라도 자료의 분포모양은 다를 수 있음 (주의)
③ 평균 (절대) 편차 (Mean (Absolute) Deviation, MAD, MD)
- 자료값과 표본평균과의 편차의 절대값에 대한 산술평균
- 이상치에 영향을 적게 받음. 개개의 자료값에 대한 정보 반영
- 절대값을 사용하기 때문에 수리적으로 다루기 부적절함 (미분불가)
- 절대 편차의 최소값을 갖는 자료값은 평균이 아닌 중앙값임
- 평균 편차가 클수록 자료는 폭넓게 분포
예시) 투자수익률이 12%, 20%, 23%, 25%, 30% 일때,
산술 평균은 22%, 평균절대편차는 4.8% → 개별 수익률은 평균 22%이며, ±4.8% 편차 발생
④ 사분위범위(Inter Quartile Range, IQR)
- 자료를 크기순으로 배열 후 사분위수로 나눈뒤, Q3-Q1을 사분위수로 정의.
- 사분위범위는 주로 이상치 판단에 사용되는 것으로 최대최소 밖이면 이상치로 간주
최대값 = 3사분위수 + 1.5 x IQR
최소값 = 1사분위수 - 1.5 x IQR
예시) 8, 10, 12, 13, 15, 17, 17, 18, 19, 23, 24 자료의
Q1 = (11+1)x(25/100)=3 이므로 3번째 수치인 12
Q3 = (11+1)x(75/100)=9 이므로 9번째 수치인 19
IQR = Q3 - Q1 = 7
최대값 = 19 + 1.5 x 7 = 29.5
최소값 = 12 - 1.5 x 7 = 1.5
⑤ 변동계수(Coefficient of Variance, CV)
- 평균을 중심으로 한 상대적인 산포의 척도를 나타내는 수치
- 측정 단위 동일하지만 평균이 큰 차이를 보이는 두 집단에 대한 산포의 척도를 비교할 때 많이 사용
- 변동계수가 클수록 상대적으로 넓게 분포를 이룸
예시) 자료A의 수익률 평균 30%, 표준편차는 4% / 자료B의 평균 15%, 표준편차 3%
자료A의 CV = 4/30*100 = 13.3%
자료B의 CV = 3/15*100 = 20%
→ 자료B의 수익의 변동이 더 크다고 판단할 수 있음
* 자료의 분포형태(Shape of Distribution)
① 왜도(Skewness) : 분포가 치우친(비대칭, asymmetry) 정도를 나타내는 통계적 척도
- 오른쪽으로 더 길면(치우치면) (+), 평균 < 중앙값 < 최빈값
- 분포가 좌우 대칭이면 (0) 평균 = 중앙값 = 최빈값
- 왼쪽으로 더 길면 (-), 평균 > 중앙값 > 최빈값
* 피어슨의 비대칭 계수(Pearson's skewness coefficients)
- 칼 피어슨이 비대칭도를 간단히 측정하기 위한 계산법. 특징은 같음
- Cs = 3 * (평균 - 중앙값 혹은 최빈값) / 표준편차
→ 중앙값 = 최빈값 = 평균이 일치하면 Cs = 0으로 정규분포를 이룬다
→ Cs > 0 이면 왼쪽으로 치우치고(오른쪽으로 긴 꼬리) 정적편포라 함
→ Cs < 0 이면 오른쪽으로 치우치고(왼쪽으로 긴 꼬리) 부적편포라 함
② 첨도(Kurtosis) : 분포의 뾰족한(peakedness) 정도를 나타내는 통계적 척도
- 첨도의 값이 3미만인 경우 평평한 분포, 3이면 정규분포, 3이 넘으면 뾰족한 분포로 해석
4) 시각적 데이터 탐색
심화된 데이터 시각화는 PART4에서 상세히 다루므로 간단히 작성
* 통계적 시각화 도구
① 도수분포표(Frequency Table) : 수집된 자료를 표로 정리한 것. 질적인 자료는 도수나 상대도수로 표현
- 도수 : 질적자료의 경우 각 범주별 빈도
- 상대도수 : 도수 / 전체자료 수 (합 = 1.0)
- 양적 자료는 전체 자료를 그룹화하고 각 그룹별 속하는 자료의 수를 계산하여 도수 및 상대도수로 표현
② 히스토그램(Histogram) : 도수분포표를 이용, 표본의 자료분포를 나타낸 그래프
③ 막대그래프(Bar Chart) : 각 자료값에 해당하는 도수 또는 상대도수를 그림으로 표현
④ 파이차트(Pie Chart) : 각 자료값의 상대도수로 기하여 원의 면적에 상대크기별로 나타낸 그래프
⑤ 산점도(Scatter Plot) : 직교좌표계를 이용해 두 변수간의 관계를 나타내는 방법
- 이상치를 확인하는 경우에 유용함.
⑥ 줄기-잎 그림(Stem-and-Leaf Diagram)
- 통계적 자료를 표 형태와 그래프 형태의 혼합된 방법으로 나타내는 것
- 자료의 정리가 가능하고 자료의 구조에 대한 정보 파악이 가능한 도구
⑦ 상자 수염 그림(Box Plot)
- 자료로부터 얻어낸 통계량인 5가지 요약 수치(다섯 숫자 요약, Five-number summary)를 가지고 그림.
※ 다섯 숫자 요약 : 최솟값, Q1, Q2, Q3, 최대값
step1. 데이터에서 각 사분위수 계산
step2. 제1사분위와 제3사분위를 밑변으로 하는 직사각형을 그리고 제2사분위에 해당하는 위치에 선분을 그림
step3. 사분위범위(IQR=Q3-Q1)을 계산
step4. Q3과 차이가 1.5IQR 이내인 값 중 최대값을 Q3과 직선 연결,
Q1과 차이가 1.5IQR 이내인 값 중 최솟값을 Q3과 직선 연결
step5. Q3과 차이가 1.5IQR 이상 초과하는 값과 Q1과 1.5IQR 이상 미달하는 값은
점/원/별표 등으로 따로 표시 (이상치로 판단)
0 댓글