Posts List

[빅분기] PART2. 빅데이터 탐색 - 통계기법의 이해 - 추론통계 (출제빈도 : 중)

         * 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

※ Lecture note - 데이터마이닝 내용과 상당부분 중복됨으로 요약 정리

※ 계산문제는 책을 보고 별도로 복습 필요

PART2. 빅데이터 탐색

3. 통계기법의 이해

3-2. 추론통계 

1) 통계적 추론 (Statistical Inference)

- 모집단에 대한 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정 (기술통계학과 다른 개념)

① 추정(Estimation) : 표본을 통해 모지단 특성을 추측하는 과정. 
   ex. 표본평균 계산으로 모집단 평균 추측, 모집단 평균에 대한 95% 신뢰구간 계산 등

② 가설검정(Testing hypothesis) : 모집단의 실제값을 표본이 가진 정보를 이용해 판정하는 과정

2) 점추정 (Point Estimate)

- 모수에 대한 모평균(μ), 모표준편차(σ) 등과 같은 추정치를 통계량으로 추정하는 것

* 추정량의 선택기준

① 불편성(Unbiasedness) : 표본 통계량의 기대값이 모수의 실제값과 같으면 이 추정량은 불편성을 가짐

② 효율성(Efficiency) : 불편추정량이라도 최소분산(VAR)을 가진 추정량이 가장 효율적
   ※ 분산이 작다 = 편차가 작다 → 평균으로 집중된다로 해석
   ※ 최소분산불편추정량(MVUE : Minimum Variance Unbiased Estimator)
     : 모든 불편추정량 중 가장 작은 분산을 가진 추정량

③ 일치성(Consistency) : 표본크기가 증가할수록 좋은 추정값을 제시. (추정량이 모수에 근접)

④ 충분성(Sufficiency) : 추정량이 모수에 대해 가장 많은 정보를 제공할 때 충분추정량이 됨
   예시)
    2가지 추정량이 아래와 같을 때,   ※ E(Xi) = μ, VAR(Xi) = σ^2 라 가정
     θ1 = 1/4X1 + 1/4X2 + 1/4X3 + 1/4X4
     θ2 = 1/4X1 + 1/2X2 + 1/4X3
    2가지 추정량의 기대값은
     E(θ1) = 1/4E(X1) + 1/4E(X2) + 1/4E(X3) + 1/4E(X4) = 4/4μ = μ
     E(θ2) = 1/4E(X1) + 1/2E(X2) + 1/4E(X3) = μ
    이지만, 분산을 비교해보면
     VAR(θ1) = 1/16VAR(X1) = 1/16VAR(X2) + 1/16VAR(X3) + 1/16VAR(X4) = 4/16 σ^2
     VAR(θ2) = 1/16VAR(X1) = 1/4VAR(X2) + 1/16VAR(X3) = 6/16 σ^2
    즉, VAR(θ1) < VAR(θ2) 이므로, θ1이 θ2보다 더 효율적이라 말할 수 있다.

* 점추정량 (Point Estimator)

- 모집단의 특성을 단일값으로 추정하는 것. 대표적으로 표본평균, 표본분산, 중앙값 등이 있음.
θ^을 모수 θ에 대한 점추정량이라 한다면, θ^ = h(X~ Xn) 점추정량은 모집단에서 추출한 X1~Xn의 함수임 
  만일 모수(parameter, 모집단의 특성을 수치화한 값)가 평균이면 각 표본공간에서 추출한 표번평균의 함수가 추정량
  즉, θ=E(X) 모수가 평균이면, 추정량 θ^ = X_bar = (X+ ... + Xn) / n
- 예시 (모수 - 추정량)
  1) 모평균(μ)에 대한 점추정 = 표본집단의 표본평균
  2) 모분산(σ^2)에 대한 점추정 = 표본집단의 표본분산
  3) 모비율에 대한 점추정 = 표본집단의 성공비율 (P=X/n)
- 점추정의 방법으로 적률방법과 최대우도추정법이 있음

* 적률 방법 (Moment Method)

적률 (Moment) 
 - 양수 n에 대해 확률변수 X^n의 기댓값 E(X^n)을 확률변수 X의 원점에 대한 n차 적률로 정의

② 표본평균을 이용한 모수(평균)의 점추정 시 적률에 의한 방법
 - 확률밀도 함수 f(x; θ1θ.. θm) 인 집단의 n개 표본 X1 ... Xn 이라할 때 θ1, ... θ은 알려지지 않은 모수
 - 원점에 대한 k차 적률 E(X^n) = ∫X^k f(x; θ1 ... θm) dx
 - 적률은 n개 표본으로부터 X^k 의 기댓값임으로 Mk = 1/n (x1^k + ... xn^k)
 - 즉, m개의 모수가 있다면 n개 표본으로부터 m개 적률을 이용해 모수의 추정값 E(X^n) = Mm 을 얻음

* 편향(Bias)

- 기대하는 추정량과 모수의 차이. B(θ^) = E(θ^) - θ
- 편향이 0이 되는 상황의 추정량 θ^을 불편추정량이라고 함. 
  ※ 표본평균은 불편추정량 but 표본분산은 불편추정량이 아님. ( 표본분산(/n), 모분산의 계산 차이 이유(/n-1) )

* 평균제곱오차 (MSE : Mean Square Error)

- 정확도에 대한 척도로 많이 사용되며, Error (θ^- θ)를 제곱한 값의 기댓값 MSE(θ^) = E[(θ^ - θ)^2]

* 최대우도점추정  ※ 관련글 : [머신러닝/딥러닝] 선형 회귀 中

우도함수 (Likelihood Function)
- 확률밀도함수 f(x;θ)를 모수 θ에 대한 함수로 볼 때, 이를 우도함수로 정의하며 L(x;θ)로 표시
   L(x1, x2, ... xn ; θ) = f(x1;θ) * f(x2;θ) ... * f(xn; θ) = ∏ f(xi; θ)
- 각 확률변수가 독립이면 우도함수는 각 표본의 확률밀도의 곱으로 표현됨 (모든 사건 확률의 곱)

최대우도추정 (Maximum Likelihood Estimation)
- 표본 X1,  ... Xn 얻을 확률이 가장 높은 최대 우도(θ^) 
  = 관찰값을 가장 잘 설명해주는 θ^ 를 θ의 추정량으로 정의
  = 이 추정량 θ^이 모수θ의 최대우도추정량
- 일반적인 최대우도추정법을 준용, 우도함수의 미분을 통해 극댓값을 찾는 방법으로 θ^을 구함
   ※ 자세한 증명 과정은 생략 및 관련글 참조

3) 구간추정

- 점추정 = 모집단의 모수를 하나의 값으로 추정
  → 아무리 좋은 추정 방법이라도 추정값이 목표값을 정확히 추정한다고 주장하기 어려움
  → 구간추정(Interval Estimation) or 신뢰구간(Confidence Interval) 방법을 적용하면 해결 가능

* 구간추정의 개념

- 모집단의 특성을 담아내는 구간을 표본자료로부터 산출하는 방법
- 점추정에 오차(error)개념 도입, 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래로 추정하는 것
- 특정 구간에 실제 모수가 있다고 예상되는 확률을 기반으로 모수가 있을 것으로 예상되는 구간 정의하는 것

① 일반화 : 구간의 상하한을 정의. [θ^1, θ^h], 구간 크기가 작을수록 실제모수를 더 정확히 추정 가능
            ※ 설정한 구간 안에 모수가 들어갈 확률 구하여 확인하는 과정 필요

신뢰수준 (Confidence Level), 유의수준 (Level of significance)
 - 추정한 구간에 모수가 들어갈 확률 P[θ^1 ≤ θ  θ^h] = 1-α
 - 1-α를 신뢰수준, α를 유의수준이라고 정의

* 모평균의 구간추정

① 모집단의 분산을 알고 있는 경우
 ※ Z(a/2) : 오른쪽 면적이 a/2인 표준정규분포를 따르는 Z값
  - 신뢰수준90% → Z(a/2) = 1.645
  - 신뢰수준95% → Z(a/2) = 1.960
  - 신뢰수준99% → Z(a/2) = 2.576

② 모집단의 분산을 모르는 경우

- 모집단의 평균을 모르면서 표준편차를 알고 있는 경우는 매우 드물다.
- 모집단의 표준편차 σ를 모를 때는 표본에서 구한 불편추정량S, 즉 표본의 표준편차를 σ 대신 사용
- 단, 표본크기가 작고 모집단 표준편차를 모르므로 정규분포를 따르지 않고 자유도 n-1의 t-분포를 따름
- t-분포를 이용하여 신뢰구간을 구해야 함
- t-분포는 자유도가 작을 때는 정규분포에 비해 넓게 퍼진 모양. 자유도가 클 때는 정규분포에 거의 근접
  → 모집단이 정규분포, 표준편차를 모를 때는 t-분포 사용하는 것이 원칙
     but 표본크기가 크면 표본표준편차↔모집단표준편차 차이가 작아 t-통계량 또는 Z-통계량 아무거나 사용
  ※ 신뢰수준 90% → ta/2, n-1 = 1.725
     신뢰수준 95% → ta/2, n-1 = 2.086

* 모분산의 신뢰구간

  예시) 임상실험 대상자 30명, 약 지속효과 평균 4.3시간. 분산 2.5시간. 95% 신뢰도 분산신뢰구간은?
  - n=30, S^2 = 2.5 → 분산은 자유도 n-1의 카이제곱분포
  - α = 0.05 → χ^2 0.975와 χ^2 0.025를 카이제곱분포표해서 구해서 계산
  - 분신신뢰구간 → 1.586 < σ^2 < 4.517

* 모비율의 신뢰구간

- 모집단 X가 이한분포 B(n, p), 모비율 p에 대한 표본집단의 비율 p^ = x/n
- n이 충분히 크다고 하면 근사적으로 평균(μ)이 np, 분산(σ^2)이 np(1-p)인 정규분포
- 모비율 p에 대한 100(1-α)% 신뢰구간은 아래와 아래와 같음
 ※ p^ = X/n

 예시) 900대 제품 랜덤 조사했을 때 불량률이 450대. 불량률의 90% 신뢰구간은?
  - X = 450, n = 900 → p^ = 0.5
  - α = 0.1, Zα/2 = 1.64 → 0.473 < p < 0.527

* 신뢰구간 표본 크기의 결정

- 모평균에 의한 신뢰구간을 이용하는 방법
- 모비율에 의한 신뢰구간을 이용하는 방법
   → 모비율에 대한 정보가 주어지지 않는 경우 p = 1/2로 놓고 표본크기를 결정

4) 가설검정

- 모집단에 대한 가설을 설정하고 표본을 분석함으로써 그 가설이 맞는지 틀리는지 타당성 여부 결정
 · 검정통계량(Test Statistic) : 가설은 표본을 근거로 채택되는데 이때 사용되는 표본통계량
 · 가설검정(Test Hypothesis) : 검정통계량의 표본분포에 따라 채택여부를 결정짓는 분석과정

* 가설검정의 절차

① 가설의 설정
 - 표본을 사용하면 오류의 가능성이 항상 존재. 오류 가능성을 사전에 관리 필요
 - 오류의 허용확률을 정해 그 기준에 따라 가설의 채택이나 기각을 결정
  · 귀무가설(Null Hypothesis, H0) : 통념적으로 믿어지는 모수에 대한 주장 혹은 기준이 되는 가설
  · 대립가설(Alternative, H1) : 모수에 대해 새로운 통계적 입증을 이루어내고자 하는 가설
 - 대립가설이 충분히 입증되지 못하면 귀무가설을 그대로 받아들일 수 밖에 없음

② 유의수준 (Significance Level, α)

 - 제1종(Type I) 오류 : 귀무가설이 참인데 대립가설을 선택하는 경우 (무죄인데 유죄라고 하는 경우, 중요)
 - 제2종(Type II) 오류 : 귀무가설이 거짓인데 귀무가설을 선택하는 경우 (유죄인데 무죄라고 하는 경우)
 - 유의수준 : 제1종 오류를 범할 확률의 최대 허용한계, 가설검정 판단의 기준
               (= 표본에서 얻은 표본통계량이 기각역에 들어갈 확률)
  · 귀무가설이 참인데 대립가설을 선택하게 될 확률. 일반적으로 1%, 5%, 10%
  · 유의수준이 낮을수록 연구자는 귀무가설을 기각하고 자신의 주장에 확신을 가질 수 있음
  · p-value가 낮을수록 귀무가설을 기각했을 때 잘못 기각할 확률이 더 낮음.
 - 귀무가설의 기각 여부는 p-value와 α의 크기에 달려있음. (p-value가 작을수록, α가 클수록 귀무가설 기각↑)

* 검정통계량 및 표본분포의 결정

- 모수의 정보는 표본에 함축되어 있음. 표본의 통계량을 통해 가설 채택 여부 결정. (=검정통계량)
- 유의수준에 따른 귀무가설 기각역 결정은 귀무가설이 참일 때 검정통계량의 확률분포가 필요
  (알려져 있지 않다면 극한이론에 근거하여 근사적인 분포라도 정해져야 함)

* 기각역의 결정 (Critical Region, Rejection Region)

- 모집단의 성격과 현저한 차이가 있을 경우 귀무가설을 기각하게 됨. 이때 검정통계량의 범위 = 기각역
  ※ 임계치(Critical value) : 기각역의 경계값. 유의수준 α에 의해 결정
- 기각역은 검정통계량의 확률분포(귀무가설이 참일 때), 대립가설의 형태에 따라 양측 또는 단측 검정통계량 설정
  · 양측 검정 : 기각역이 양쪽에 있는 것,   단측 검정 : 기각역이 한쪽에만 있는 것

* 검정통계량의 계산

① 의사결정
 - 검정통계량의 값이 기각역에 속하면 귀무가설 기각(대립가설 선택), 그렇지 않으면 귀무가설 채택

② 통계량의 계산과 임계치의 비교
 - 임계치가 결정되면 표본에서 얻는 통계량이 기각인지 채택인지 결정해야 함
 - 임계치는 X_bar, Z, t 값으로 나타낼 수 있음. 

③ p-value (관측된 유의수준, Observed Significance Level =유의성 확률, significant probability)
 - 주어진 자료로서 귀무가설을 기각하려고 할 때 필요한 최소의 유의수준
 - p-value가 계산되는 경우에는 유의수준 α와 비교하여 아래와 같이 결정
   ※ p-value < α (귀무가설 기각),  반대는 귀무가설 채택

* 표본의 평균 검정

- 단일 표본에서 모평균에 대한 검정은 표본평균(X_bar)를 이용
- 표본평균을 이용해 검정법을 만들려면 표본평균의 분포를 알아야 함 (아래 절차에 따라)

① 집단크기에 따른 검정 통계량(Z or T)의 선택
- 표본의 크기가 크거나 모집단이 정규분포인 경우(Z)
- 정규분포를 따르면서 표본의 크기가 작은 경우(T)

② 가설의 설정 : μ에 대한 검정 절차
 - 귀무가설 H0 : μ = μ0
 - 대립가설 H1μ ≠ μ0

③ 검정 통계량 : Z-검정 또는 t-검정을 시행

④ 검정 : Z-검정 또는 T-검정과 비교
 - H1 : μ > μ일때 z ≥ za/2
 - H1 : μ < μ일때 z ≤ -za/2
 - H1 μ ≠ μ일때 |z| ≥ za/2
 - t-검정의 경우는 자유도 N-1인 t-분포 사용

 예시) 16명 학생 한달 용돈 평균 96,000원. 학생 전체 한달 용돈의 표준편차 6,000원.
       학생들의 한달 용돈이 월 100,000원 이상이라고 할 수 있을 까? α-오류를 5%로 하여 검정
   H0 : μ ≥ 100,000     H1 : μ < 100,000
   유의수준 α = 5% → 채택영역 Z ≥ -1.64,   기각영역 Z < -1.64
   Z = -2.67

* 두 독립표본의 평균차이 검정

- 두 개의 독립 표본 X, Y가 각각의 평균(μ1μ1)과 분산(표준편차 σ12)을 따르는 정규분포일 때, 
  두 모집단의 평균차이1 - μ1)의 검정

① 가설의 설정 : μ에 대한 검정 절차
 - 귀무가설 H0 : μ1 - μ = 0
 - 대립가설 H1 : μ1 - μ ≠ 0

② 검정 통계량 설정
 - X-표본과 Y-표본의 표본평균인 X와 Y의 차이에 근거하여 구성  
   ※ 모집단의 표준편차는 σ, 표본의 표준편차는 S로 표기
 - 검정통계량 T는 자유도 m+n-2인 t-분포를 따름

③ 기각역의 설정

 예시) 두 종류의 사료가 젖소의 우유 생산량에 미치는 영향 차이 조사
       랜덤하게 8마리씩 표본으로 선택, 한 그룹은 사료1, 다른 그룹에는 사료2
       사료1 젖소의 생산량 : 54 / 60 / 66 / 53 / 62 / 61/ / 42 / 50 (평균 45, 표준편차 7.76)
       사료2 젖소의 생산량 : 60 / 70 / 62 / 67 / 59 / 45 / 60 / 52 (평균 60, 표준편차 8.18)
       사료가 우유생산량에 차이를 준다고 할 수 있는지 유의수준 5% 검정!
 - 귀무가설 H0 : μ1 - μ = 0
 - 대립가설 H1 : μ1 - μ ≠ 0, 
 - 검정통계량 = T
 - α = 0.05, 기각역 → | T | ≥ t0.025(8+8-2) = 2.145
 - 검정통계량 계산 → T = ... = 1.0 < 2.145 → 귀무가설 채택(=우유 생산량이 특별히 다르다고 볼 수 없음)

* 대응표본의 평균차이 검정

- 실험단위를 동질적인 쌍으로 묶은 다음 각각 처리하고, 각 쌍에서 관측된 값의 차이를 이용해 모평균을 추론
- 대응비교(paired comparison) 또는 쌍체비교라고 함

① 통계량의 설정
 - n쌍의 독립적인 쌍체표본 (X1, Y1) ... (Xn, Yn)
 - 각 쌍의 차이 DiX1 - Y1 ~ N(μD, σD^2) 로 가정

② 가설의 설정
 - 귀무가설 H0 : μD = 0
 - 대립가설 H1 : μD ≠ 0

③ 검정통계량 및 표본분포
 - 차이의 평균에 근거하여 구성
 - T 귀무가설이 참일 때 자유도 n-1인 t-분포를 따름 (표본 크기가 크면 표준정규분포)

④ 기각역의 설정
 - 양측으로 설정되어 있으면 양측에 기각역 구성
 - 검정통계량의 값이 | T | > t(α/2, n-1)을 만족하면 유의수준 α에서 귀무가설 기각
    ※ 임계치 t(α/2, n-1)는 자유도 n-1인 t-분포의 100(1-α/2)%를 의미
 예시) 10명 임상실험. 투약전 체중(X1), 투약후 체중(X2)
       체중감소 조사 결과 체중의 차의 표본평균과 표준편차 D_bar = 0.54kg, SD = 2.15 
       약은 체중감소에 효과적인지 1% 검정
 - 귀무가설 H0 : μD = 0
 - 대립가설 H1 : μD ≠ 0, α = 0.01
 - 검정통계량 T = ... = 0.079
 - 기각역 T > t(α, n-1) = t(0.01, 9) = 2.821 (t분포표 참조) → 
 - 검정통계량 T = 0.079 < 2.821 → 귀무가설 채택 = 효과적이지 않음

* 단일표본 모분산에 대한 가설검정 (χ^2 검정)

- 정규모집단 N(μ, σ^2)에서 평균과 분산이 미지인 경우 모분산에 대한 가설 검정은 점추정량인 s^2를 이용
  (과정 생략)

* 두 모분산비에 대한 가설 검정 (F 검정)

- 모평균, 모분산을 모르고 표본 크기, 분산을 알고 있을 때 두 모분산의 비에 대한 가설검정 방법
  (과정 생략)



댓글 쓰기

0 댓글