Posts List

[빅분기] PART3. 빅데이터 모델링 - 분석 기법 적용 - 고급 분석 기법 (출제빈도 : 중)

             * 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

PART3. 빅데이터 모델링

2. 분석 기법 적용

2-2. 고급 분석 기법

1) 범주형 자료분석 (범주 or 집단으로 나눠진 자료)

* 범주형 자료분석의 통계적 정의

- 변수들이 이산형 변수일 때 주로 사용하는 분석. (ex. 두 제품간 선호도가 성별에 연관있는지?)
- 일반적으로 빈도를 세서 표를 작성. 두 변수 범주가 교차되어 있다면 이 표를 분할표(Contingency Table)라 부름
- 분할표는 범주형 변수를 요약해 표현하기 가장 적당. 표를 통해 범주별 비교, 독립성, 동질성 검정 등(카이제곱)
- 분할표는 쉽지만 중요한 개념. 로지스틱 회귀모형 등으로 대표되는 일반화 선형모형을 해석하는 과정에도 사용

* 자료의 분석

① 자료의 형태에 따른 범주형 자료 분석 방법

② 분할표 : 범주형 데이터가 각 변수에 따라 통계표 형태로 정리되어 쓴 것 (=빈도분포표, 교차표)
   ※ 분할표 분석 : 두 범주형 변수의 빈도분포표를 작성하여 변수간 상호연관성 분석
 - 차원(Demensionality) : 변수의 수
 - 수준(Level) : 범주형 변수가 가지는 범주의 수
 - 비율의 차이 (D = α1 - α2) : 0~1사이의 값, 동질 또는 독립인 경우 D = 0
 - 상대적 위험도(Relative Risk) (RR = α1 / α2) : 0 ~ ∞, 동질 또는 독립인 경우 RR = 1
 - 오즈비(Odds Ratio = 승산비, 교차비) (OR = {α1 (1 - α1)} / {α(1 - α2)}, 동질/독립인 경우 OR = 1

빈도분석
 - 질적자료를 대상으로 빈도와 비율을 계산할 때 사용
 - 질적, 양적자료가 모두 범주형이고 많을 때 질적자료를 대상으로 오류가 있는지 확인 가능

교차분석 또는 카이제곱검정
 - 두 범주형 변수가 서로 상관이 있는지 독립인지 판단하는 통계적 검정 방법
   (범주형 자료간의 차이를 분석하는 모수적 통계 방법)
 - 통계량으로 카이제곱(χ2)을 사용하며 카이제곱검정에 의한 방법으로 분석

로지스틱 회귀 분석
 - 독립변수는 이산형, 종속변수는 범주형일 때
 - 분석 대상이 두 집단 혹은 그 이상의 집단으로 나누어진 경우 어느 집단으로 분류 될 수 있는지 분석할 때 사용

T 검정 (모수적 통계 방법, 정규성/등분산성/독립성 가정)
 - 독립변수가 범주형(두 개의 집단)이고, 종속변수가 연속형인 경우. 두 집단간 평균 비교 등 사용

분산분석
 - 독립변수가 범주형(두 개 이상 집단)이고 종속변수가 연속형인 경우. 두 집단간 분산 비교 등에 사용

2) 다변량분석(Multivariate Analysis)

- 다수의 측정치를 동시에 분석하는 모든 통계적 방법. (일변량분석과 이변량분석의 확장 형태)
- 종속변수의 관계성을 고려해 여러 개의 단변량분석을 동시에 수행하는 것을 의미

* 용어

종속 기법(Dependence Methods)
  : 변수들을 종속변수, 독립변수로 구분하여 독립변수가 종속변수에 미치는 영향력을 분석하는 기법

상호의존적 기법(Interdependence Methods)
  : 변수를 구분하지 않고 전체를 대상으로 하는 분석 기법
 
③ 명목 척도(Nominal Scale)
  : only 분류만을 위해 사용된 숫자. 숫자 그 자체는 전혀 의미가 없는 측정단위

④ 순위 척도(Ordinal Scale)
  : 선호되는 순위를 나타낸 숫자. 숫자자체는 의미를 가지나 간격이나 비율의 의미를 가지진 못하는 측정단위

⑤ 등간 척도(Interval Scale)
  : 측정된 숫자 자체와 숫자의 차이는 의미를 가지나 비율은 의미를 가지지 못하는 측정단위

⑥ 비율 척도(Ratio Scale)
  : 측정된 숫자와 그 간격이 의미를 가질 뿐아니라 숫자의 비율마저도 의미를 가지는 가장 높은 측정단위

⑦ 정량적 자료(Metric Data)
  : 등간척도 혹은 비율척도로 측정된 자료. 양적(Quantitative)자료 혹은 모수화된(Paramatric) 자료라고 함

⑧ 비정량적 자료(Nonmetric Data)
  : 명목척도나 순위척도로 측정된 자료. 질적자료(Qualitative) 또는 비(non)모수화된 자료라고 함

⑨ 변량(Variate)
  : 변수들을 일종의 통계적인 방법으로 가중치를 주어 변수들의 합의 형태로 나타낸 새로운 변수

* 다변량분석기법의 분류

① 다중회귀분석(Multi Regression)
 - 다수의 독립변수의 변화에 따른 종속변수의 변화를 예측. 
 - 회귀 모형의 적합도 분석, 설명력, 상대적인 기여도 등을 확인

② 다변량분산분석(ANOVA), 다변량공분산분석(ANCOVA)
 - 다변량분산분석 : 종속변수의 상관관계가 높을 경우 사용. 둘 이상의 집단간 평균차이(분산)을 분석.
    → 두 개 이상의 계량적 종속변수에 대한 각 집단의 반응치의 분산에 대한 가설을 검증하는데 유용
    (ex. 다수의 관광행동집단의 관광만족도 차원 비교 분석)
 - 다변량공분산분석 : 실험에서 통제 되지 않은 독립변수들의 효괄를 제거하기 위해 ANOVA와 함께 사용
    (ex. 종업원 교육시 학력을 통제한 상태에서 종업원의 이론성적과 실기성적 두 교육 방식의 차이 분석)

      출처 : https://ars.els-cdn.com/

 - 하나의 계량적 종속변수와 다수의 계량적 독립변수간의 관련성을 조사하는 다중회귀분석의 논리적 확대
 - 종속-독립변수 간 상관을 가장 크게하는 각 변수군의 선형조합을 찾아내는 것
   (ex. 외식 동기 항목, 레스토랑 선택속성 변수들 간의 관계 분석을 통해 외식 동기가 레스토랑 선택에 미치는 영향)

 - 변수들 간 상호관련성을 분석하고 이 변수들을 공통요인으로 설명하고자 할 때 사용
 - 많은 수의 원래 변수들을 적은 수의 요인으로 요약하기 위한 분석 기법
 - 검사나 측정도구 개발과정에서 측정도구의 타당성 파악하기 위한 방법으로 많이 사용
 - 탐색적 요인분석 : 가설 요인을 설정하지 않고 자료에 근거해 경험적으로 요인의 구조 파악
 - 확인적 요인분석 : 사전에 요인의 구조를 가설적으로 설정하고 검증하는 방법
 (ex. 관광객이 여행사 선택하는 변수(속성)이 많을 때 개별적으로 분석하지 않고 몇 개의 요인으로 축소/요약)

⑤ 군집분석(Cluster Analysis)
 - 집단에 관한 사전정보가 전혀 없는 표본에 대해 분류체계를 찾을 때 (=유사성에 기초해 분류할 때)
 - 판별분석과 달리 집단이 사전에 정의 되어 있지 않음
 - 유사성/연관성 조사 → 정의된 집단에 표본 분류 혹은 예측 → 그룹들에 대해 판별분석 적용
 (ex. 고객들로부터 레저활동 관심도, 시설 선호도 등 조사 후 세분시장을 발견하려는 경우)

다중판별분석(Multi Discriminant Analysis)  ※ 관련글 : [데이터마이닝] 판별분석
 - 종속변수가 남/녀와 같이 두 개 범주로 나눠져있거나 상/중/하와 같이 그 이상으로 나누져있을 경우
   즉, 독립변수는 계량적 변수이나, 종속변수가 비계량적 변수일 경우 사용
 - 집단과의 차이를 판별하고 어떤 사례가 여러 개의 계량적 독립변수에 기초하여 특정 집단에 소속할 가능성 예측

다차원척도법(MDS : Multi-Dimensional Scaling)

 - 개체들간의 거리 또는 비유사성을 이용해 원래 차원보다 낮은 차원 공간에 위치시켜(spatial configuration)
   구조 또는 관계를 쉽게 파악하고 싶을 때 사용
   (차원의 축소와 개체들의 상대적 위치 등을 통해 관계를 쉽게 파악. 공간적 배열에 대한 주관적 해석)
   (ex. 특정 관광지 대상으로 관광객의 인지에 대한 유사성 연구)

3) 시계열 분석

- 시계열 자료를 분석하고 여러 변수들 간 인과관계를 분석하는 방법론
- 경제학에서 많이 쓰임. 시계열 자료의 구분, 정상성 구분에 따른 분석모형, 회귀분석에 대해 이해 필요

* 시계열 자료

① 이산 시계열 : 관측값들이 이산적인 형태로 분리되어 존재
② 연속 시계열 : 관측값들이 연속적으로 연결된 형태의 자료
③ 시차(Time Lag) : 한 관측지점과 다른 관측지점 시간의 (일정)간격

* 시계열자료의 성분

① 불규칙 성분(Irregular Component) : 규칙성 없이 랜덤하게 변화하는 변동성분(ex. noise)
② 체계적 성분(Systemic Component) : 규칙이 존재.
 - 추세성분(Trend Component) : 지속적 증가 혹은 감소하는 추세 포함
 - 계절성분(Seasonal Component) : 주기적 성분에 의한 변동을 가지는 형태 (계절/주/월/년 등)
 - 순환성분(Cyclical Component) : 주기적 변화 + 계절적이지 않은 주기가 긴 변동을 가지는 형태
 - 복합성분 : 추세성분 + 계절성분 동시에 가지는 경우
 - 자기상관성(Autocorrelation) : 시차값들 사이에 선형관계를 보이는 것
 - 백색잡음(White Noise) : 자기 상관성이 없는 데이터. 무작위한 움직임(진동). 잔차(Residual)라고도 부름

* 정상성 (Stationarity)

- 시계열 데이터가 평균, 분산이 일정한 경우. 정상성을 가지면 분석이 용이하다 볼 수 있음
- 시계열 분석 전 이상치 / 개입 / 평균일정함 / 분산일정함 등을 확인하며 정상성 확인을 함
- 비정상성을 판별하기 위해 자기상관함수, 부분자기상관함수를 활용.
  ※ 자기상관함수 : 시계열 자신과 지체된 시계열 간의 상관계수. (과거값과 어떤 상관관계를 가지는지)

평균이 일정 : 모든 시점에 대해 평균 일정. 일정하지 않으면 차분(difference)통해 정상성 확보
분산이 일정 : 모든 시점에 대해 분산 일정. 일정하지 않으면 변환(transformation)통해 정상성 확보
공분산의 경우 단지 시차에만 의존하며 특정시점에는 의존하지 않음
④ 정상성을 가지는 시계열 자료의 특징
 - 어느 시점에서 평균분산 그리고 특정시차가 일정한 경우의 공분산이 동일함
 - 평균회귀 경향이 있으며 평균 주변의 변동은 대체로 일정한 폭을 가짐
 - 특정시간에서 얻은 정보를 다른 시기에서도 사용이 가능할 정도로 일반화 가능

* 시계열자료의 분석 방법

- 예측(Forcase)하기 위한 단순방법(추세분석, 평활법, 분해법) / 모형기반 방법(자기회귀모형)
- 이해와 제어를 하기 위한 스펙트럼분석, 개입분석 등이 있음

① 단순방법
 - 이동평균법(Moving Average Method) : 일정(관측)기간(윈도우) 시계열을 이동하며 평균을 계산하는 방법. 
    → 추세를 파악, 예측에 활용. 뚜렷한 추세 혹은 불규칙 움직이 있는 경우 윈도우 크기(n)를 작게 가져감
 - 지수평활법(Exponential Smoothing Method)
   : 이동평균과 달리 관찰기간 제한 없이 모든 시계열 데이터 사용. 최근 시계열에 더 큰 가중치를 줌
   · 단기간에 발생하는 불규칙 변동을 평활하는데 주로 사용. 
   · 중기 이상의 예측에 주로 사용. 장기 추세나 계절성 포함된 시계열 데이터에는 부적합
   · 지수평화계수가 작을수록 지엽적 변화에 민감.
 - 분해법(Decomposition Method)
   · 시계열 자료의 성분 분류대로 시계열 데이터를 분해하는 방법
   · 시계열 데이터 = 체계적 성분 + 불규칙적 성분 이라는 가정하에 체계적 성분을 분리 후 분석/예측
   · 시계열 자료로부터 계절적 특성, 추세/성분 성분을 분리해 시계열의 장기적 추이 분석, 불규칙 시점 탐색
   · 계절조정(Seasonal Adjustment) 자료를 제공함. 계절성분이 장기 변화 탐색에 방해되는 경우 빼고 분석

② 모형에 의한 방법
 - 자기회귀모형(AR : AutoRegressive Model)
   · 일정 시점 전의 자료가 현재자료에 영향을 준다는 가정하에 만들어진 시계열예측 모형
   · 어느 정도의 멀리 있는 과거 관측치까지 이용할 것인지에 대한 판단이 중요
 - 자기회귀이동평균모형(ARMA : AutoRegressive Moving Average Model)
   · 관측치가 과거관측치 + 과거오차들에 의해서 설명될 때 사용 (AR모형 + MA모형)
 - 자기회귀누적이동평균모형(ARIMA : AutoRegressive Integrated Moving Average Model)
   · 비정상성을 가지는 시계열 데이터 분석에 많이 사용

4) 베이즈 기법

* 베이즈 추론 (Bayesian Inference)   ※ 참고글 : [데이터마이닝] Probability

- 추론 대상의 사전 확률과 추가적인 정보를 통해 사후 확률을 추론하는 방법

① 확률론적 의미해석(조건부 확률)
- 추론 대상인 사건 = A일때, 사전 확률(Prior) P(A)가 주어지고, 관계된 사건 B가 있을 때
  조건부 확률 P(B|A)가 주어진다면 조건부 확률식에 의해 사후확률 P(A|B)를 구할 수 있음
  ※ P(B|A) : 우도확률(Likelihood)으로, 원인 사건A가 발생했을 때 관계된 B가 발생할 조건부 확률
     ex. 날씨가 맑은날이면(A) 건조할 확률(B)
  ※ P(A|B) : 결과사건 B가 발생했다는 조건하에 사건 A가 발생하는 확률
     ex. 건조하다면(B) 날씨는 맑을 확률(A)

② 베이즈 기법의 개념
- 객관적 관점 : 베이즈 통계의 법칙은 이성적, 보편적으로 증명될 수 있으며 논리의 확장으로 설명될 수 있음
- 주관적 관점 : 지식의 상태는 개인적인 믿음의 정도(Degree of Belief)로 측정할 수 있음
- 현대적 기계 학습 방법은 객관적 베이즈 원리에 따라 만들어 짐
- 심리학, 사회학, 경제학 이론에 많이 응용
- 가설의 확률을 평가하기 위해 사전 확률을 먼저 밝히고 새로운 데이터에 의한 새로운 확률값을 변경

* 베이즈 기법 적용

① 회귀분석모델에서 베이즈 기법의 적용
 - 선형회귀분석모델 y = θ0θ1x 에서 목표는 loss를 최소화하는 매개변수(θ)의 추정
 - 기존 머신러닝은 경사하강법과 같은 알고리즘을 통해 점진적으로 매개변수를 찾아나감
 - 베이지안 확률론의 적용 개념은, 추정하고자 하는 θ가 하나의 값이 아니라 분포를 갖는다고 가정
   ※ P(model)이라는 사전확률(prior)를 알고 있는데 새로운 데이터가 관측되면 
      P(model | data) 이란 사후확률(posterior)를 얻게 되고 이름 다음번의 사전확률로 사용.
      점진적으로 P(model), 즉 매개변수들의 분폴르 찾아가는 과정이 머신러닝 과정으로 만들어 짐

② 분류에서 베이즈 기법의 적용  ※ 관련글 : [데이터마이닝] Classification
- 나이브(Naive) 베이즈 분류 : 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기
  · 분류기를 만들 수 있는 간단한 기술. 단일 알고리즘이 아닌 일반적인 원칙에 근거한 여러 알고리즘을 이용해 훈련
  · 모든 나이브 베이즈 분류기는 공통적으로 모든 특성 값이 서로 독립임을 가정
   (ex. 특정 과일을 귤로 인식하는 특성 노란색/둥글다/표면/지름5cm이상 이런것들이 다 독립사건이라고 봄)
  · 지도학습 환경에서 매우 효율적으로 훈련될 수 있음
  · 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적음
  · 간단한 디자인과 간단한 가정에도 불구, 많은 복잡한 실제 상황에서 잘 동작 (ex. 스팸 분류 등)
  · 사전확률은 클래스간 동일확률이라 가정하여 계산할 수 있고 (사전확률 = 1 / 클래스의 수)
    트레이닝 셋으로 부터 클래스 확률의 추정치를 계산할 수도 있음 (사전확률 = 해당 클래스의 샘플수 / 총 샘플수)
- 가우시안 나이브 베이즈 : 연속적인 값을 지닌 데이터를 처리할 때, 클래스의 연속적인 값들의 가우시안 분포 가정
- 다항분포 나이브 베이즈 : 특성 벡터들이 다항분포에 의해 생성된 이벤트의 경우 사용
- 베르누이 나이브 베이즈 : 특성 벡터들이 독립적인 이진 변수로 표현될 경우 사용

5) 딥러닝 분석

* 딥러닝 분석의 개념  ※ 관련글 : [머신러닝/딥러닝] Multilayer Perceltrons

① 인공신경망(ANN) - (생략)
② 딥러닝(Deep Learning) - (생략)
③ 딥러닝의 원리 - (생략)

* 딥러닝 분석 알고리즘

① 심층 신경망(DNN) - (생략)  ※ 관련글 : [컴퓨터비전] DNNs
② 합성곱 신경망(CNN) - (생략)  ※ 관련글 : [머신러닝/딥러닝] CNN
 - 2차원 구조의 데이터도 충분히 활용할 수 있음. 영상, 음성 분야 모두에서 좋은 성능
 - 합성곱 심층 신뢰 신경망(CDBN : Convolutional Deep Belief Network)는 CNN + DBM으로
   영상처리와 신호처리분야에서 많이 사용 됨
③ 순환 신경망(RNN) - (생략)  ※ 관련글 : [머신러닝/딥러닝] RNN
 - 신경망을 구성하는 유닛 사이의 연결이 순환적 구조를 갖는 인공신경망
 - 시퀀스 데이터 모델링 하기 위해 등장. 기존 ANN과 다른점은 '기억'을 갖고 있다는 점. 
 - 완전 순환망(Fully Recurrent Network), Hopfield network, Elman network,
   ESN(Echo State Network), LSTM, Bi-directional RNN, CTRNN(Continuous Time RNN),
   Hierarchical RNN, Second order RNN 등으로 파생
심층 신뢰 신경망(DBN : Deep Belief Network)
 - 기계학습에서 사용되는 그래프 생성 모형(generative graphical model)
 - 잠재변수(latent variable)의 다중계층으로 이루어진 심층 신경망을 의미
 - 계층 간에 연결이 있지만 계층 내의 유닛 간에는 연결이 없는 것이 특징
 - 선행학습으로 가중치 학습한 후, 역전파 또는 다른 알고리즘으로는 가중치가 조정되지 않게 할 수 있음
   → 훈련데이터가 적을 때 유용. (데이터가 적을 때 가중치의 초기값이 결과적인 모델에 끼치는 영향이 커서)
   → 선행학습된 가중치 초기값은 임의로 설정된 초기값에 비해 최적의 가중치에 가깝게 됨 (성능, 속도 향상)

6) 비정형 데이터 분석

* 비정형 데이터

- 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화 되어 있음
- 텍스트 데이터, 이미지, 동영상 같은 멀티미디어 데이터가 대표적
- 웹 데이터는 html 형태로 존재해 반정형이라 구분할 수도 있지만, 
   텍스트 마이닝으로 수집하는 경우도 존재하므로 명확한 구분은 어려움

① 데이터 수집의 난이도
 - 정형(하) : 내부 시스템인 경우가 대부분이라 수집이 쉬움. 스프레드시트라도 내부에 형식을 가지고 있어 처리 쉬움
 - 반정형(중) : 보통 API형태로 제공되기 때문에 데이터 처리 기술이 요구
 - 비정형(상) : 텍스트마이닝 혹은 파일일 경우 파일을 데이터형태로 파싱해야 하기 때문에 처리가 어려움

② 데이터 처리의 아키텍처
 - 정형 : 일반적인 아키텍처 구조
 - 반정형 : 데이터의 메타구조를 해석해 정형 데이터 형태로 바꿀 수 있는 아키텍처 구조 수정 필요
 - 비정형 : 텍스트나 파일을 파싱해 메타구조를 갖는 데이터셋 형태로 바꾸고 정형화 해야함

③ 데이터의 잠재적 가치
 - 정형(하) : 내부 데이터 특성과 현실적 가치의 한계가 있어 활요측면에서 잠재적 가치는 상대적으로 낮음
 - 반정형(중) : 데이터 제공자가 선별해 제공하는 데이터로 잠재적 가치가 있음
 - 비정형(상) : 수집 주체에 의해 분석이 선행이 되었음 (=목적론적 데이터) 
                수집이 가능하면 수집 주체에게는 잠재적 가치가 매우 높음

* 비정형 데이터 분석

- 빅데이터 환경에서 80% 이상이 비정형 데이터. 이를 분석하는 중요도는 매우 높음
- 분석기법들이 상당히 제한적이며 대부분의 경우 상식적 수준의 연관관계 추출에 그칠 가능성이 높음
- 현재 기술의 발달로 비정형데이터를 제한 없이 분석해 결과를 도출하는 수준까지 왔음

① 비정형 데이터 분석의 기본 원리
 - 비정형 데이터 내용 파악과 패턴 발견을 위해 데이터마이닝, 텍스트분석 등 다양한 기법 사용
 - 정련 과정을 통해 정형데이터로 만든 후, 분류/군집/회귀/요약/이상감지 등 데이터 마이닝 수행

② 데이터 마이닝
 - 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 정보를 추출하는 기술
 - KDD(Knowledge-Discovery in Database)라고도 일컫음
 - 통계학 base : EDA, 가설검정, 다변량 분석, 시계열 분석, 일반선형모형 등
 - DB base : OLAP(On-line Analytic Processing) 등
 - AI base : SOM(Self-Organizing Map), ANN, 전문가시스템 등
 - 분류 / 군집화 /연관성 / 연속성 / 예측 등에 적용
 - 전통적인 데이터 마이닝 기법은 비정형 데이터를 정형화하는 기반하에서 
   상식적 범위에서 부분적 데이터를 다룬다는 한계가 있음

③ 텍스트 마이닝
 - 전통적 데이터 마이닝 한계를 벗어난 방법
 - 인간의 언어로 이루어진 비정형 텍스트 데이터를 자연어 처리방식을 이용해 숨겨진 의미 발견
 - 자연어처리(NLP)
   · 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해 모사할 수 있도록 연구하고 구현하는 AI 분야
   · 연구대상이 언어이기 때문에 언어학, 언어인지 과학과 연관이 깊음
   · 구현을 위해 수학/통계적 도구, 특히 기계학습 도구를 많이 사용.
   · 정보검색 / QA시스템 / 문서자동분류 / 신문기사 클러스터링 / 대화형 Agent 등에 활용

④ 웹 마이닝
 - 데이터 마이닝 기술의 응용분야. 웹자원으로부터 의미있는 패턴, 프로파일, 추세를 발견
 - 데이터 속성이 반정형 or 비정형이고, 링크(link)구조를 가지고 있기 때문에 정통적 데이터 마이닝 + α 필요
 - 정보필터링 / 경쟁자 특허 감시 / 기술개발 감시 / 웹 액세스 로그 마이닝 / 브라우징 지원 등 활용

⑤ 오피니언 마이닝
 - 의견, 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 기술
 - 주관적인 의견을 통계, 수치화하여 객관적인 정보로 변경. 감정과 태도도 분석하기 때문에 감정분석이라고도 불림
 - 분석 대상이 마찬가지로 텍스트. 텍스트 마이닝에서 활용하는 자연어 처리 방법을 활용.

⑥ 리얼리티 마이닝
 - 매일 사용하는 스마트폰 등의 기계나 모션센서 등의 행동에서 비정형 데이터를 추출하는 방법
 - 통화/메시징 등의 커뮤니케이션 데이터, GPS/WIFI 등의 위치 데이터가 주 데이터
 - 사회적 행위를 마이닝하고 사용자 행동 모델링이나 라이프 로그도 얻어내는 것을 목표로 함

7) 앙상블 분석  ※ 관련글 : [데이터마이닝] - 분류모델(앙살블)

* 앙상블 분석의 정의

- 주어진 자료로부터 여러 개의 학습 모형을 만든 후 조합하여 하나의 최종 모형을 만드는 개념

① 약학습기(약분류기, Weak Learner)
 - 나름 잘 만들어진 (오차율 50% 이하) 학습 규칙. 가능성 있는 다양한 복수의 학습 규칙
② 강학습기(강분류기, Strong Learner)
 - 약학습기로부터 만들어내는 강력한 학습 규칙

 → 다양한 약학습기를 통해 강학습기를 만들어 내는 것이 앙상블 기법의 핵심

* 앙상블 분석의 종류 

보팅(Voting)
 - 약 학습기의 결과를 말 그대로 투표를 통해 결정하는 방식. 
 - 보팅은 여러 학습 모델을 조합하는 반면 배깅은 같은 알고리즘 내에서 다른 표본(sample) 데이터 조합을 사용
 - 하드 보팅은 결과물에 대한 최종 값을 투표해서 결정
 - 소프트 보팅은 최종 결과물이 나올 확률 값을 다 더해서 최종 결과물에 대한 각각의 확률을 구한 뒤 최종값 도출

부스팅(Boosting)
 - 가중치를 활용해 연속적인 약학습기를 생성하고 이를 통해 강학습기를 만드는 방법
 - 순차적 학습을 하며 가중치를 부여해 오차를 보완해 나간다는 것이 특징
 - 순차적이기 때문에 병렬 처리에 어려움이 있음 (학습시간이 오래 걸림)

배깅(Bagging, Bootstrap Aggregation)
 - 샘플을 여러번 뽑아(Bootstrap) 각 모델을 학습시켜 결과물을 집계(aggregation)하는 방법
 - 범주형 자료는 투표방식으로, 연속형 자료는 평균으로 최종값을 집계
 - 랜덤 포레스트가 가장 대표적인 배깅 모델 (여러 샘플로 Decision tree를 만들고 voting 하는 알고리즘)

8) 비모수 통계

* 모수(매개변수, 파라미터)의 정의

- 어떠한 시스템이나 함수의 특정한 성질을 나타내는 변수 θ로 표현
- 함수의 수치를 정해진 변역에서 구하거나 시스템의 반응을 결정할 때 독립변수는 변하지만 매개변수는 일정
- 다른 매개변수를 이용해 함수의 다른 수치를 구하거나 시스템의 다른 반응 관찰 가능

* 비모수 통계의 개념

- 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 데이터에서 직접 확률을 계산 및 검정
  ※ 모수통계는 데이터의 분포를 알거나 모수(평균, 분산) 등을 안다고 가정하고 검정, 추론 진행

* 비모수 통게법의 사용조건

① 자료가 나타내는 모집단의 형상이 정규분포가 아닐 때
② 자료가 나타내는 현상이 정규분포로 적절이 변환되지 못할 때
③ 자료의 표본이 적을 때
자료들이 서로 독립적일 때
변인의 척도가 명명척도나 서열척도일 때
 - 명명척도(=범주형 척도) : 분류를 위한 척도를 의미
 - 서열척도 : 명명척도에서 서열적 정보를 가지는 숫자 포함 척도

* 비모수 통계의 특징

- 가정을 만족시키지 못한 상태에서 그대로 모수 통계분석을 함으로써 발생할 수 있는 오류를 줄일 수 있음
- 질적척도로 측정된 자료도 분석 가능
- 비교적 신속하고 쉽게 통계량 구할 수 있으며 결과에 대한 해석 및 이해가 쉬움
- 많은 표본을 추출하기 어려운 경우에 사용 적합

* 비모수적 통계 검정법

부호검정 : 관측치들 간에 같다 혹은 크거나 작다라는 주장이 사실인지 아닌지 검정 (중앙값 이용)
윌콕슨(Wilcoxon) 부호순위 검정
   : 크거나 작음을 나타내는 부호 뿐만 아니라 관측치간 차이의 크기 순위까지 고려
만 위트니(Mann-Whitney) 검정
   : 두 집단 간의 중심위치를 비교하기 위하여 사용하는 검증 방법
크루스칼-왈리스 검정
   : 3개 이상 집단의 중앙값 차리를 검정. (만 위트니와 유사)

댓글 쓰기

0 댓글