Posts List

[빅분기] PART3. 빅데이터 모델링 - 분석 모형 설계 - 분석 절차 수립 (출제빈도 : 하)

          * 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

PART3. 빅데이터 모델링

1. 분석 모형 설계

1-1. 분석 절차 수립

1) 분석 모형 선정

* 분석 모형 선정 필요성

- 분석 기법이나 알고리즘을 적용하기 전에 모형 선정이 필요
- 데이터 속성을 세부적으로 파악/처리 한 뒤 모형을 선정하고 적절한 분석기법을 선택
- 데이터가 없다면 사전 분석 목적을 정확히 파악해야 모형 선정을 수월히 진행할 수 있음
  → 분석 목적 설정 : 의사결정 / 불확실성 해소 / 요약 / 인과관계 파악 / 예측
  ① 의사결정 : 여러 대안 중 하나의 행동을 고르는 일. 정보들 → 의사 결정 → 결과
  ② 불확실성 해소 : 의사결정의 가장 큰 리스크는 불확실성. 분석을 통해 불확실성 제어 필요
  ③ 요약 : 데이터 요약을 통해 상황을 쉽고 빠르게 파악가능하며 대응방안 도출 가능
  ④ 인과관계 파악 : 단순 요약을 넘어 연관관계 분석으로 원인과 결과를 파악하고 세부적인 판단 가능
  ⑤ 예측 : 원인과 결과에서 패턴을 찾는다면 다음에 생길 결과에 대한 예측 및 미래 대비 가능
 ※ 가트너 그룹 빅데이터 분석의 목적(2015)
    : 고객 인사이트 / 제품 및 절차 효율성 / 디지털 제품 및 서비스 
      / 운영의 탁월성 / 디지털 마케팅 / 위기 관리 시스템

* 분석 모형 선정 프로세스

① 문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석 목표/조건 정의
② 데이터 수집, 정리 및 도식화
③ 데이터 전처리 (데이터 정제, 종속/독립 변수 설정, 데이터 변환/통합/축소 등)
④ 최적의 분석 모형 선정

2) 분석 모형 정의

* 분석 모형 정의와 종류

예측 분석 모형 "어떤 일이 발생 할까?" 
 - 미래에 대한 현상을 사전에 분류하고 예측하는 모형

현황 진단 모형 "과거에 어떤 상황이 왜? 현재는 어떤 상태?"
 - 과거 데이터를 통해 현재 상황을 객관적으로 진단하는 모형. 미래 예측이 아닌 현재를 이해에 초첨

최적화 분석 모형 "어떻게 하면 원하는 결과가 나올까?"
 - 제한된 자원/환경 내에서 최대의 효용성 혹은 이익을 생성하기 위해 분석 모델을 최적화

* 분석 모형 정의를 위한 사전 고려사항

- 분석 모형 정의와 판별을 위한 평가기준표를 만들어 항목별로 점수화 하여 분석 모형 정의의 가능성 판단
 (예시)
 ① 필요성 : 개인/기관 관점에서 분석 과제가 필요한가?
 ② 파급효과 : 정성적, 정량적 기대효과의 정도 판단
 ③ 추진 시급성 : 당장 해소되어야 할 사안인지 판단, 장기과제 성격 분리
 ④ 구현 가능성 : 과제 구현에 있어 어려움이 없는지 현실성 판단
 ⑤ 데이터 수집 가능성 : 데이터 수집 시 제약사항 판단 (ex. 공공기관 협조 등)
 ⑥ 모델 확장성 : 시범과제로 끝나지 않고 전체 데이터 모델로 확장 가능한지 판단 
- 상향식(Bottom-up) 접근 : 문제 정의가 어려워 많은 양의 데이터 분석을 통해 인사이트 도출
- 하향식(Top-down) 접근 : 문제 정의가 가능할 때 아래 모델로 발굴하는 방식
  1) biz. 모델 : 어떻게 수익을 창출할 것인가에 대한 검증으로 분석 과제 발굴
  2) 외부참조 모델 : 벤치마킹으로 분석 테마 후보 pool 구축 및 선택
  3) 분석 유스케이스 : 문제에 대한 상세 설명과 해결 시 효과에 대해 명시함으로써 분석과제 도출

3) 분석 모형 구축 절차

* 분석 시나리오 작성

- 분석 시나리오를 작성함으로써 결과가 어떻게 활용되는지 명확히 이해
- 데이터 분석 대상 및 범위를 요구사항에 맞게 정의
- 데이터 분석을 통해 해결할 수 있는 문제와 목표, 목표별 구현 모델, 예상 결과 작성
- 분석 과정에 필요한 데이터, 절차, 분석기법 등의 세부사항 정의
  ※ 데이터 → 사전 확보 및 유형 분석 필요

* 분석 모형 설계 : 분석 대상 및 범위를 정의 + 목적 구현을 위한 분석 방법론 설계

① 분석 모형 설계 시 사전 확인 사항
 - 필요한 데이터 항목이 정의되었는가?
 - 데이터 단위를 고려, 항목에 따른 표준화 방법을 정의하였는가?
 - 데이터 수집 항목에 따라 단계별로 모델이 설계되었는가?
 - 분석 검증 통계 기법을 선정하였는가?

② 분석 모델링 설계와 검정
 - 목적에 기반한 가설검정 방법 수립
 - 추정방법에 대한 기술 검토
 - 분석 모델링 설계와 검정 방법 수립

③ 분석 모델링에 적합한 알고리즘 설계
 - 비지도 / 지도 / 준지도 /강화 학습 등 (추후 상세 설명)

④ 분석 모형 개발 및 테스트
 - 모듈 기능 정의 / 설계
 - 모듈 갭라 결과물과 모델 설계 일치성 확인, 정상 동작 여부 확인

* 분석 모델링 설계와 검정 - 분석 목적에 기반한 가설검정 방법

① 유의수준 결정, 귀무가설과 대립 가설 설정
 - 귀무가설이 옳다는 가정하에 시작. 대립가설은 귀무가설기 기각 됐을 때 받아들여지는 가설로 정의

② 검정통계량 설정
 - 가설을 검정하기 위한 기준으로 사용하는 값
 - 검정통계량이 확률분포 상 어디에 위치하는지에 따라 귀무가설을 기각하거나 기각하지 않음

③ 기각역 설정
 - 확률분포에서 귀무가설을 기각하는 영역 (신뢰구간 바깥 영역)
 - 기각역에 검정통계량이 위치하면 귀무가설 기각

④ 검정통계량 계산
 - (표본평균-모평균) / (표본 표준편차) 로 계산
 - 신뢰수준 : 가설을 검정할 때 어느정도로 검정할 것인지에 대한 수준
 - 유의수준 : 일정 수준을 벗어나면 귀무가설이 오류라고 판단하는 수준 (기각역들의 합 = 1 - 신뢰수준)

⑤ 통계적인 의사결정 (가설검정)
 - 양측검정, 단측검정 중 문제 속성에 따라 선택/활용하여 의사결정
 - 검정통계량이 기각역 내에 있는지를 확인후 귀무가설 채택 여부 판단

* 분석 모델링 설계와 검정 - 추정 방법에 대한 기술 검토

- 전처리가 끝나면 활용될 후보 변수와 후보 알고리즘이 파악됨
- 분석 모형의 종류 : 예측 분석 / 현황 진단 / 예측 최적화
- 종속변수가 있는지 없는지를 확인 → 종석변수 유무에 따라 사용할 알고리즘이 제한을 받음
  ex. 종속변수가 없으면 군집 / 원인분석 / 이상치 / 연관법칙 등의 방법으로 분석해야 함

댓글 쓰기

0 댓글