* 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.
PART3. 빅데이터 모델링
2. 분석 기법 적용
2-2. 고급 분석 기법
1) 범주형 자료분석 (범주 or 집단으로 나눠진 자료)
* 범주형 자료분석의 통계적 정의
- 변수들이 이산형 변수일 때 주로 사용하는 분석. (ex. 두 제품간 선호도가 성별에 연관있는지?)- 일반적으로 빈도를 세서 표를 작성. 두 변수 범주가 교차되어 있다면 이 표를 분할표(Contingency Table)라 부름- 분할표는 범주형 변수를 요약해 표현하기 가장 적당. 표를 통해 범주별 비교, 독립성, 동질성 검정 등(카이제곱)- 분할표는 쉽지만 중요한 개념. 로지스틱 회귀모형 등으로 대표되는 일반화 선형모형을 해석하는 과정에도 사용
* 자료의 분석
① 자료의 형태에 따른 범주형 자료 분석 방법
② 분할표 : 범주형 데이터가 각 변수에 따라 통계표 형태로 정리되어 쓴 것 (=빈도분포표, 교차표)
※ 분할표 분석 : 두 범주형 변수의 빈도분포표를 작성하여 변수간 상호연관성 분석
- 차원(Demensionality) : 변수의 수
- 수준(Level) : 범주형 변수가 가지는 범주의 수
- 비율의 차이 (D = α1 - α2) : 0~1사이의 값, 동질 또는 독립인 경우 D = 0
- 상대적 위험도(Relative Risk) (RR = α1 / α2) : 0 ~ ∞, 동질 또는 독립인 경우 RR = 1
- 오즈비(Odds Ratio = 승산비, 교차비) (OR = {α1 / (1 - α1)} / {α2 / (1 - α2)}, 동질/독립인 경우 OR = 1
③ 빈도분석
- 질적자료를 대상으로 빈도와 비율을 계산할 때 사용
- 질적, 양적자료가 모두 범주형이고 많을 때 질적자료를 대상으로 오류가 있는지 확인 가능
④ 교차분석 또는 카이제곱검정
- 두 범주형 변수가 서로 상관이 있는지 독립인지 판단하는 통계적 검정 방법
(범주형 자료간의 차이를 분석하는 모수적 통계 방법)
- 통계량으로 카이제곱(χ2)을 사용하며 카이제곱검정에 의한 방법으로 분석
⑤ 로지스틱 회귀 분석
- 독립변수는 이산형, 종속변수는 범주형일 때
- 분석 대상이 두 집단 혹은 그 이상의 집단으로 나누어진 경우 어느 집단으로 분류 될 수 있는지 분석할 때 사용
⑥ T 검정 (모수적 통계 방법, 정규성/등분산성/독립성 가정)
- 독립변수가 범주형(두 개의 집단)이고, 종속변수가 연속형인 경우. 두 집단간 평균 비교 등 사용
⑦ 분산분석
- 독립변수가 범주형(두 개 이상 집단)이고 종속변수가 연속형인 경우. 두 집단간 분산 비교 등에 사용
2) 다변량분석(Multivariate Analysis)
- 다수의 측정치를 동시에 분석하는 모든 통계적 방법. (일변량분석과 이변량분석의 확장 형태)
- 종속변수의 관계성을 고려해 여러 개의 단변량분석을 동시에 수행하는 것을 의미
* 용어
① 종속 기법(Dependence Methods)
: 변수들을 종속변수, 독립변수로 구분하여 독립변수가 종속변수에 미치는 영향력을 분석하는 기법
② 상호의존적 기법(Interdependence Methods)
: 변수를 구분하지 않고 전체를 대상으로 하는 분석 기법
③ 명목 척도(Nominal Scale)
: only 분류만을 위해 사용된 숫자. 숫자 그 자체는 전혀 의미가 없는 측정단위
④ 순위 척도(Ordinal Scale)
: 선호되는 순위를 나타낸 숫자. 숫자자체는 의미를 가지나 간격이나 비율의 의미를 가지진 못하는 측정단위
⑤ 등간 척도(Interval Scale)
: 측정된 숫자 자체와 숫자의 차이는 의미를 가지나 비율은 의미를 가지지 못하는 측정단위
⑥ 비율 척도(Ratio Scale)
: 측정된 숫자와 그 간격이 의미를 가질 뿐아니라 숫자의 비율마저도 의미를 가지는 가장 높은 측정단위
⑦ 정량적 자료(Metric Data)
: 등간척도 혹은 비율척도로 측정된 자료. 양적(Quantitative)자료 혹은 모수화된(Paramatric) 자료라고 함
⑧ 비정량적 자료(Nonmetric Data)
: 명목척도나 순위척도로 측정된 자료. 질적자료(Qualitative) 또는 비(non)모수화된 자료라고 함
⑨ 변량(Variate)
: 변수들을 일종의 통계적인 방법으로 가중치를 주어 변수들의 합의 형태로 나타낸 새로운 변수
* 다변량분석기법의 분류
① 다중회귀분석(Multi Regression)
- 다수의 독립변수의 변화에 따른 종속변수의 변화를 예측.
- 회귀 모형의 적합도 분석, 설명력, 상대적인 기여도 등을 확인
② 다변량분산분석(ANOVA), 다변량공분산분석(ANCOVA)
- 다변량분산분석 : 종속변수의 상관관계가 높을 경우 사용. 둘 이상의 집단간 평균차이(분산)을 분석.
→ 두 개 이상의 계량적 종속변수에 대한 각 집단의 반응치의 분산에 대한 가설을 검증하는데 유용
(ex. 다수의 관광행동집단의 관광만족도 차원 비교 분석)
- 다변량공분산분석 : 실험에서 통제 되지 않은 독립변수들의 효괄를 제거하기 위해 ANOVA와 함께 사용
(ex. 종업원 교육시 학력을 통제한 상태에서 종업원의 이론성적과 실기성적 두 교육 방식의 차이 분석)
③ 정준상관분석(Canonical Analysis) ※ 관련글 : [빅분기] 데이터탐색 - 고급 데이터 탐색
출처 : https://ars.els-cdn.com/
- 하나의 계량적 종속변수와 다수의 계량적 독립변수간의 관련성을 조사하는 다중회귀분석의 논리적 확대
- 종속-독립변수 간 상관을 가장 크게하는 각 변수군의 선형조합을 찾아내는 것
(ex. 외식 동기 항목, 레스토랑 선택속성 변수들 간의 관계 분석을 통해 외식 동기가 레스토랑 선택에 미치는 영향)
④ 요인분석(Factor Analysis) ※ 관련글 : [빅분기] 데이터탐색 - 고급 데이터 탐색
- 변수들 간 상호관련성을 분석하고 이 변수들을 공통요인으로 설명하고자 할 때 사용
- 많은 수의 원래 변수들을 적은 수의 요인으로 요약하기 위한 분석 기법
- 검사나 측정도구 개발과정에서 측정도구의 타당성 파악하기 위한 방법으로 많이 사용
- 탐색적 요인분석 : 가설 요인을 설정하지 않고 자료에 근거해 경험적으로 요인의 구조 파악
- 확인적 요인분석 : 사전에 요인의 구조를 가설적으로 설정하고 검증하는 방법
(ex. 관광객이 여행사 선택하는 변수(속성)이 많을 때 개별적으로 분석하지 않고 몇 개의 요인으로 축소/요약)
⑤ 군집분석(Cluster Analysis)
- 집단에 관한 사전정보가 전혀 없는 표본에 대해 분류체계를 찾을 때 (=유사성에 기초해 분류할 때)
- 판별분석과 달리 집단이 사전에 정의 되어 있지 않음
- 유사성/연관성 조사 → 정의된 집단에 표본 분류 혹은 예측 → 그룹들에 대해 판별분석 적용
(ex. 고객들로부터 레저활동 관심도, 시설 선호도 등 조사 후 세분시장을 발견하려는 경우)
⑥ 다중판별분석(Multi Discriminant Analysis) ※ 관련글 : [데이터마이닝] 판별분석
- 종속변수가 남/녀와 같이 두 개 범주로 나눠져있거나 상/중/하와 같이 그 이상으로 나누져있을 경우
즉, 독립변수는 계량적 변수이나, 종속변수가 비계량적 변수일 경우 사용
- 집단과의 차이를 판별하고 어떤 사례가 여러 개의 계량적 독립변수에 기초하여 특정 집단에 소속할 가능성 예측
⑦ 다차원척도법(MDS : Multi-Dimensional Scaling)
- 개체들간의 거리 또는 비유사성을 이용해 원래 차원보다 낮은 차원 공간에 위치시켜(spatial configuration)
구조 또는 관계를 쉽게 파악하고 싶을 때 사용
(차원의 축소와 개체들의 상대적 위치 등을 통해 관계를 쉽게 파악. 공간적 배열에 대한 주관적 해석)
(ex. 특정 관광지 대상으로 관광객의 인지에 대한 유사성 연구)
3) 시계열 분석
- 시계열 자료를 분석하고 여러 변수들 간 인과관계를 분석하는 방법론
- 경제학에서 많이 쓰임. 시계열 자료의 구분, 정상성 구분에 따른 분석모형, 회귀분석에 대해 이해 필요
* 시계열 자료
① 이산 시계열 : 관측값들이 이산적인 형태로 분리되어 존재
② 연속 시계열 : 관측값들이 연속적으로 연결된 형태의 자료
③ 시차(Time Lag) : 한 관측지점과 다른 관측지점 시간의 (일정)간격
* 시계열자료의 성분
① 불규칙 성분(Irregular Component) : 규칙성 없이 랜덤하게 변화하는 변동성분(ex. noise)
② 체계적 성분(Systemic Component) : 규칙이 존재.
- 추세성분(Trend Component) : 지속적 증가 혹은 감소하는 추세 포함
- 계절성분(Seasonal Component) : 주기적 성분에 의한 변동을 가지는 형태 (계절/주/월/년 등)
- 순환성분(Cyclical Component) : 주기적 변화 + 계절적이지 않은 주기가 긴 변동을 가지는 형태
- 복합성분 : 추세성분 + 계절성분 동시에 가지는 경우
- 자기상관성(Autocorrelation) : 시차값들 사이에 선형관계를 보이는 것
- 백색잡음(White Noise) : 자기 상관성이 없는 데이터. 무작위한 움직임(진동). 잔차(Residual)라고도 부름
* 정상성 (Stationarity)
- 시계열 데이터가 평균, 분산이 일정한 경우. 정상성을 가지면 분석이 용이하다 볼 수 있음
- 시계열 분석 전 이상치 / 개입 / 평균일정함 / 분산일정함 등을 확인하며 정상성 확인을 함
- 비정상성을 판별하기 위해 자기상관함수, 부분자기상관함수를 활용.
※ 자기상관함수 : 시계열 자신과 지체된 시계열 간의 상관계수. (과거값과 어떤 상관관계를 가지는지)
① 평균이 일정 : 모든 시점에 대해 평균 일정. 일정하지 않으면 차분(difference)통해 정상성 확보
② 분산이 일정 : 모든 시점에 대해 분산 일정. 일정하지 않으면 변환(transformation)통해 정상성 확보
③ 공분산의 경우 단지 시차에만 의존하며 특정시점에는 의존하지 않음
④ 정상성을 가지는 시계열 자료의 특징
- 어느 시점에서 평균분산 그리고 특정시차가 일정한 경우의 공분산이 동일함
- 평균회귀 경향이 있으며 평균 주변의 변동은 대체로 일정한 폭을 가짐
- 특정시간에서 얻은 정보를 다른 시기에서도 사용이 가능할 정도로 일반화 가능
* 시계열자료의 분석 방법
- 예측(Forcase)하기 위한 단순방법(추세분석, 평활법, 분해법) / 모형기반 방법(자기회귀모형)
- 이해와 제어를 하기 위한 스펙트럼분석, 개입분석 등이 있음
① 단순방법
- 이동평균법(Moving Average Method) : 일정(관측)기간(윈도우) 시계열을 이동하며 평균을 계산하는 방법.
→ 추세를 파악, 예측에 활용. 뚜렷한 추세 혹은 불규칙 움직이 있는 경우 윈도우 크기(n)를 작게 가져감
- 지수평활법(Exponential Smoothing Method)
: 이동평균과 달리 관찰기간 제한 없이 모든 시계열 데이터 사용. 최근 시계열에 더 큰 가중치를 줌
· 단기간에 발생하는 불규칙 변동을 평활하는데 주로 사용.
· 중기 이상의 예측에 주로 사용. 장기 추세나 계절성 포함된 시계열 데이터에는 부적합
· 지수평화계수가 작을수록 지엽적 변화에 민감.
- 분해법(Decomposition Method)
· 시계열 자료의 성분 분류대로 시계열 데이터를 분해하는 방법
· 시계열 데이터 = 체계적 성분 + 불규칙적 성분 이라는 가정하에 체계적 성분을 분리 후 분석/예측
· 시계열 자료로부터 계절적 특성, 추세/성분 성분을 분리해 시계열의 장기적 추이 분석, 불규칙 시점 탐색
· 계절조정(Seasonal Adjustment) 자료를 제공함. 계절성분이 장기 변화 탐색에 방해되는 경우 빼고 분석
② 모형에 의한 방법
- 자기회귀모형(AR : AutoRegressive Model)
· 일정 시점 전의 자료가 현재자료에 영향을 준다는 가정하에 만들어진 시계열예측 모형
· 어느 정도의 멀리 있는 과거 관측치까지 이용할 것인지에 대한 판단이 중요
- 자기회귀이동평균모형(ARMA : AutoRegressive Moving Average Model)
· 관측치가 과거관측치 + 과거오차들에 의해서 설명될 때 사용 (AR모형 + MA모형)
- 자기회귀누적이동평균모형(ARIMA : AutoRegressive Integrated Moving Average Model)
· 비정상성을 가지는 시계열 데이터 분석에 많이 사용
4) 베이즈 기법
* 베이즈 추론 (Bayesian Inference) ※ 참고글 : [데이터마이닝] Probability
- 추론 대상의 사전 확률과 추가적인 정보를 통해 사후 확률을 추론하는 방법
① 확률론적 의미해석(조건부 확률)
- 추론 대상인 사건 = A일때, 사전 확률(Prior) P(A)가 주어지고, 관계된 사건 B가 있을 때
조건부 확률 P(B|A)가 주어진다면 조건부 확률식에 의해 사후확률 P(A|B)를 구할 수 있음
※ P(B|A) : 우도확률(Likelihood)으로, 원인 사건A가 발생했을 때 관계된 B가 발생할 조건부 확률
ex. 날씨가 맑은날이면(A) 건조할 확률(B)
※ P(A|B) : 결과사건 B가 발생했다는 조건하에 사건 A가 발생하는 확률
ex. 건조하다면(B) 날씨는 맑을 확률(A)
② 베이즈 기법의 개념
- 객관적 관점 : 베이즈 통계의 법칙은 이성적, 보편적으로 증명될 수 있으며 논리의 확장으로 설명될 수 있음
- 주관적 관점 : 지식의 상태는 개인적인 믿음의 정도(Degree of Belief)로 측정할 수 있음
- 현대적 기계 학습 방법은 객관적 베이즈 원리에 따라 만들어 짐
- 심리학, 사회학, 경제학 이론에 많이 응용
- 가설의 확률을 평가하기 위해 사전 확률을 먼저 밝히고 새로운 데이터에 의한 새로운 확률값을 변경
* 베이즈 기법 적용
① 회귀분석모델에서 베이즈 기법의 적용
- 선형회귀분석모델 y = θ0 + θ1x 에서 목표는 loss를 최소화하는 매개변수(θ)의 추정
- 기존 머신러닝은 경사하강법과 같은 알고리즘을 통해 점진적으로 매개변수를 찾아나감
- 베이지안 확률론의 적용 개념은, 추정하고자 하는 θ가 하나의 값이 아니라 분포를 갖는다고 가정
※ P(model)이라는 사전확률(prior)를 알고 있는데 새로운 데이터가 관측되면
P(model | data) 이란 사후확률(posterior)를 얻게 되고 이름 다음번의 사전확률로 사용.
점진적으로 P(model), 즉 매개변수들의 분폴르 찾아가는 과정이 머신러닝 과정으로 만들어 짐
② 분류에서 베이즈 기법의 적용 ※ 관련글 : [데이터마이닝] Classification
- 나이브(Naive) 베이즈 분류 : 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기
· 분류기를 만들 수 있는 간단한 기술. 단일 알고리즘이 아닌 일반적인 원칙에 근거한 여러 알고리즘을 이용해 훈련
· 모든 나이브 베이즈 분류기는 공통적으로 모든 특성 값이 서로 독립임을 가정
(ex. 특정 과일을 귤로 인식하는 특성 노란색/둥글다/표면/지름5cm이상 이런것들이 다 독립사건이라고 봄)
· 지도학습 환경에서 매우 효율적으로 훈련될 수 있음
· 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적음
· 간단한 디자인과 간단한 가정에도 불구, 많은 복잡한 실제 상황에서 잘 동작 (ex. 스팸 분류 등)
· 사전확률은 클래스간 동일확률이라 가정하여 계산할 수 있고 (사전확률 = 1 / 클래스의 수)
트레이닝 셋으로 부터 클래스 확률의 추정치를 계산할 수도 있음 (사전확률 = 해당 클래스의 샘플수 / 총 샘플수)
- 가우시안 나이브 베이즈 : 연속적인 값을 지닌 데이터를 처리할 때, 클래스의 연속적인 값들의 가우시안 분포 가정
- 다항분포 나이브 베이즈 : 특성 벡터들이 다항분포에 의해 생성된 이벤트의 경우 사용
- 베르누이 나이브 베이즈 : 특성 벡터들이 독립적인 이진 변수로 표현될 경우 사용
5) 딥러닝 분석
* 딥러닝 분석의 개념 ※ 관련글 : [머신러닝/딥러닝] Multilayer Perceltrons
① 인공신경망(ANN) - (생략)
② 딥러닝(Deep Learning) - (생략)
③ 딥러닝의 원리 - (생략)
* 딥러닝 분석 알고리즘
① 심층 신경망(DNN) - (생략) ※ 관련글 : [컴퓨터비전] DNNs
② 합성곱 신경망(CNN) - (생략) ※ 관련글 : [머신러닝/딥러닝] CNN
- 2차원 구조의 데이터도 충분히 활용할 수 있음. 영상, 음성 분야 모두에서 좋은 성능
- 합성곱 심층 신뢰 신경망(CDBN : Convolutional Deep Belief Network)는 CNN + DBM으로
영상처리와 신호처리분야에서 많이 사용 됨
③ 순환 신경망(RNN) - (생략) ※ 관련글 : [머신러닝/딥러닝] RNN
- 신경망을 구성하는 유닛 사이의 연결이 순환적 구조를 갖는 인공신경망
- 시퀀스 데이터 모델링 하기 위해 등장. 기존 ANN과 다른점은 '기억'을 갖고 있다는 점.
- 완전 순환망(Fully Recurrent Network), Hopfield network, Elman network,
ESN(Echo State Network), LSTM, Bi-directional RNN, CTRNN(Continuous Time RNN),
Hierarchical RNN, Second order RNN 등으로 파생
④ 심층 신뢰 신경망(DBN : Deep Belief Network)
- 기계학습에서 사용되는 그래프 생성 모형(generative graphical model)
- 잠재변수(latent variable)의 다중계층으로 이루어진 심층 신경망을 의미
- 계층 간에 연결이 있지만 계층 내의 유닛 간에는 연결이 없는 것이 특징
- 선행학습으로 가중치 학습한 후, 역전파 또는 다른 알고리즘으로는 가중치가 조정되지 않게 할 수 있음
→ 훈련데이터가 적을 때 유용. (데이터가 적을 때 가중치의 초기값이 결과적인 모델에 끼치는 영향이 커서)
→ 선행학습된 가중치 초기값은 임의로 설정된 초기값에 비해 최적의 가중치에 가깝게 됨 (성능, 속도 향상)
6) 비정형 데이터 분석
* 비정형 데이터
- 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화 되어 있음
- 텍스트 데이터, 이미지, 동영상 같은 멀티미디어 데이터가 대표적
- 웹 데이터는 html 형태로 존재해 반정형이라 구분할 수도 있지만,
텍스트 마이닝으로 수집하는 경우도 존재하므로 명확한 구분은 어려움
① 데이터 수집의 난이도
- 정형(하) : 내부 시스템인 경우가 대부분이라 수집이 쉬움. 스프레드시트라도 내부에 형식을 가지고 있어 처리 쉬움
- 반정형(중) : 보통 API형태로 제공되기 때문에 데이터 처리 기술이 요구
- 비정형(상) : 텍스트마이닝 혹은 파일일 경우 파일을 데이터형태로 파싱해야 하기 때문에 처리가 어려움
② 데이터 처리의 아키텍처
- 정형 : 일반적인 아키텍처 구조
- 반정형 : 데이터의 메타구조를 해석해 정형 데이터 형태로 바꿀 수 있는 아키텍처 구조 수정 필요
- 비정형 : 텍스트나 파일을 파싱해 메타구조를 갖는 데이터셋 형태로 바꾸고 정형화 해야함
③ 데이터의 잠재적 가치
- 정형(하) : 내부 데이터 특성과 현실적 가치의 한계가 있어 활요측면에서 잠재적 가치는 상대적으로 낮음
- 반정형(중) : 데이터 제공자가 선별해 제공하는 데이터로 잠재적 가치가 있음
- 비정형(상) : 수집 주체에 의해 분석이 선행이 되었음 (=목적론적 데이터)
수집이 가능하면 수집 주체에게는 잠재적 가치가 매우 높음
* 비정형 데이터 분석
- 빅데이터 환경에서 80% 이상이 비정형 데이터. 이를 분석하는 중요도는 매우 높음
- 분석기법들이 상당히 제한적이며 대부분의 경우 상식적 수준의 연관관계 추출에 그칠 가능성이 높음
- 현재 기술의 발달로 비정형데이터를 제한 없이 분석해 결과를 도출하는 수준까지 왔음
① 비정형 데이터 분석의 기본 원리
- 비정형 데이터 내용 파악과 패턴 발견을 위해 데이터마이닝, 텍스트분석 등 다양한 기법 사용
- 정련 과정을 통해 정형데이터로 만든 후, 분류/군집/회귀/요약/이상감지 등 데이터 마이닝 수행
② 데이터 마이닝
- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 정보를 추출하는 기술
- KDD(Knowledge-Discovery in Database)라고도 일컫음
- 통계학 base : EDA, 가설검정, 다변량 분석, 시계열 분석, 일반선형모형 등
- DB base : OLAP(On-line Analytic Processing) 등
- AI base : SOM(Self-Organizing Map), ANN, 전문가시스템 등
- 분류 / 군집화 /연관성 / 연속성 / 예측 등에 적용
- 전통적인 데이터 마이닝 기법은 비정형 데이터를 정형화하는 기반하에서
상식적 범위에서 부분적 데이터를 다룬다는 한계가 있음
③ 텍스트 마이닝
- 전통적 데이터 마이닝 한계를 벗어난 방법
- 인간의 언어로 이루어진 비정형 텍스트 데이터를 자연어 처리방식을 이용해 숨겨진 의미 발견
- 자연어처리(NLP)
· 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해 모사할 수 있도록 연구하고 구현하는 AI 분야
· 연구대상이 언어이기 때문에 언어학, 언어인지 과학과 연관이 깊음
· 구현을 위해 수학/통계적 도구, 특히 기계학습 도구를 많이 사용.
· 정보검색 / QA시스템 / 문서자동분류 / 신문기사 클러스터링 / 대화형 Agent 등에 활용
④ 웹 마이닝
- 데이터 마이닝 기술의 응용분야. 웹자원으로부터 의미있는 패턴, 프로파일, 추세를 발견
- 데이터 속성이 반정형 or 비정형이고, 링크(link)구조를 가지고 있기 때문에 정통적 데이터 마이닝 + α 필요
- 정보필터링 / 경쟁자 특허 감시 / 기술개발 감시 / 웹 액세스 로그 마이닝 / 브라우징 지원 등 활용
⑤ 오피니언 마이닝
- 의견, 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 기술
- 주관적인 의견을 통계, 수치화하여 객관적인 정보로 변경. 감정과 태도도 분석하기 때문에 감정분석이라고도 불림
- 분석 대상이 마찬가지로 텍스트. 텍스트 마이닝에서 활용하는 자연어 처리 방법을 활용.
⑥ 리얼리티 마이닝
- 매일 사용하는 스마트폰 등의 기계나 모션센서 등의 행동에서 비정형 데이터를 추출하는 방법
- 통화/메시징 등의 커뮤니케이션 데이터, GPS/WIFI 등의 위치 데이터가 주 데이터
- 사회적 행위를 마이닝하고 사용자 행동 모델링이나 라이프 로그도 얻어내는 것을 목표로 함
7) 앙상블 분석 ※ 관련글 : [데이터마이닝] - 분류모델(앙살블)
* 앙상블 분석의 정의
- 주어진 자료로부터 여러 개의 학습 모형을 만든 후 조합하여 하나의 최종 모형을 만드는 개념
① 약학습기(약분류기, Weak Learner)
- 나름 잘 만들어진 (오차율 50% 이하) 학습 규칙. 가능성 있는 다양한 복수의 학습 규칙
② 강학습기(강분류기, Strong Learner)
- 약학습기로부터 만들어내는 강력한 학습 규칙
→ 다양한 약학습기를 통해 강학습기를 만들어 내는 것이 앙상블 기법의 핵심
* 앙상블 분석의 종류
① 보팅(Voting)
- 약 학습기의 결과를 말 그대로 투표를 통해 결정하는 방식.
- 보팅은 여러 학습 모델을 조합하는 반면 배깅은 같은 알고리즘 내에서 다른 표본(sample) 데이터 조합을 사용
- 하드 보팅은 결과물에 대한 최종 값을 투표해서 결정
- 소프트 보팅은 최종 결과물이 나올 확률 값을 다 더해서 최종 결과물에 대한 각각의 확률을 구한 뒤 최종값 도출
② 부스팅(Boosting)
- 가중치를 활용해 연속적인 약학습기를 생성하고 이를 통해 강학습기를 만드는 방법
- 순차적 학습을 하며 가중치를 부여해 오차를 보완해 나간다는 것이 특징
- 순차적이기 때문에 병렬 처리에 어려움이 있음 (학습시간이 오래 걸림)
③ 배깅(Bagging, Bootstrap Aggregation)
- 샘플을 여러번 뽑아(Bootstrap) 각 모델을 학습시켜 결과물을 집계(aggregation)하는 방법
- 범주형 자료는 투표방식으로, 연속형 자료는 평균으로 최종값을 집계
- 랜덤 포레스트가 가장 대표적인 배깅 모델 (여러 샘플로 Decision tree를 만들고 voting 하는 알고리즘)
8) 비모수 통계
* 모수(매개변수, 파라미터)의 정의
- 어떠한 시스템이나 함수의 특정한 성질을 나타내는 변수 θ로 표현
- 함수의 수치를 정해진 변역에서 구하거나 시스템의 반응을 결정할 때 독립변수는 변하지만 매개변수는 일정
- 다른 매개변수를 이용해 함수의 다른 수치를 구하거나 시스템의 다른 반응 관찰 가능
* 비모수 통계의 개념
- 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 데이터에서 직접 확률을 계산 및 검정
※ 모수통계는 데이터의 분포를 알거나 모수(평균, 분산) 등을 안다고 가정하고 검정, 추론 진행
* 비모수 통게법의 사용조건
① 자료가 나타내는 모집단의 형상이 정규분포가 아닐 때
② 자료가 나타내는 현상이 정규분포로 적절이 변환되지 못할 때
③ 자료의 표본이 적을 때
④ 자료들이 서로 독립적일 때
⑤ 변인의 척도가 명명척도나 서열척도일 때
- 명명척도(=범주형 척도) : 분류를 위한 척도를 의미
- 서열척도 : 명명척도에서 서열적 정보를 가지는 숫자 포함 척도
* 비모수 통계의 특징
- 가정을 만족시키지 못한 상태에서 그대로 모수 통계분석을 함으로써 발생할 수 있는 오류를 줄일 수 있음
- 질적척도로 측정된 자료도 분석 가능
- 비교적 신속하고 쉽게 통계량 구할 수 있으며 결과에 대한 해석 및 이해가 쉬움
- 많은 표본을 추출하기 어려운 경우에 사용 적합
* 비모수적 통계 검정법
① 부호검정 : 관측치들 간에 같다 혹은 크거나 작다라는 주장이 사실인지 아닌지 검정 (중앙값 이용)
② 윌콕슨(Wilcoxon) 부호순위 검정
: 크거나 작음을 나타내는 부호 뿐만 아니라 관측치간 차이의 크기 순위까지 고려
③ 만 위트니(Mann-Whitney) 검정
: 두 집단 간의 중심위치를 비교하기 위하여 사용하는 검증 방법
④ 크루스칼-왈리스 검정
: 3개 이상 집단의 중앙값 차리를 검정. (만 위트니와 유사)
0 댓글