Posts List

[빅분기] PART4. 빅데이터 결과 해석 - 분석결과 해석 및 활용 - 분석결과 해석 (출제빈도 : 하)

                * 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

PART4. 빅데이터 결과 해석

2. 분석결과 해석 및 활용

2-1. 분석결과 해석

1) 분석 모델별 결과 해석

* 분석모형 해석  ※ 관련글 : [빅분기] 분석모형평가

① 회귀모델 - (생략)
② 분류모델 - (생략)
군집분석모델
 - 군집 그룹의 통계량 (연속형은 평균 or 중앙값, 범주형은 각 군집의 분포)를 요약하고 
   관측치의 공통점과 변동성을 확인.
 - 외부평가 : 얼마나 유사하게 군집하가 됐는지 확인. 자카드지수 활용 (J(A,B) = TP / (TP+FP+FN) )
 - 내부평가 : Dunn Index로 적절한 군집 개수 결정 
    ※ Dunn Index = 군집간 거리 최소값 / 군집내 요소간 거리 최대값
 - 팔꿈치 기법 : 군집 개수 - 에러 그래프를 그려보고 팔꿈치에 해당하는 곳을 적절한 군집 개수로 지정
 - 실루엣 기법 : 실루엣 지수가 1에 가까울 수록 최적화가 잘 된 것. 
    ※ 실루엣 지수 : 다른 군집과는 거리가 멀고 동일 군집끼리 데이터는 서로 가깝게 계산되는 식
연관분석 모델
 - 두 개 또는 그 이상의 품목들 사이의 상호 관련성으로 해석
 - 지지도, 신뢰도 및 향상도가 높은 규칙들을 찾되 최소 기준점을 적용
 - 빈발 집합을 고려하여 연관규칙을 생성하는 Apriori 알고리즘 사용
 - 지지도(Support) : 전체 거래에서 품목 A, B가 동시에 포함된 거래의 수 (support = A∩B / N)
 - 신뢰도(Confidence) : 품목 A가 구매 됐을 때 품목 B가 구매 될 확률 (confidence = A∩B / A)
 - 향상도(Life) : 품목 A를 구매할 때 B도 추가로 구매하는 지의 연관성 비율 (life = A∩B*N / AB)
   ※ 1보다 크면 양의 상관관계, 1이면 독립적 관계, 1보다 작으면 음의 상관관계

* 비즈니스 기여도 평가

① 빅데이터 분석 목적
 - 과거의 데이터를 토대로 미래를 분석
   ※ 고객 인사이트 / 제품 및 절차 효율성 / 디지털 제품 및 서비스 / 디짙러 마케팅 / 위기 관리 / 운영 등
 - 데이터분석이 성과로 연계되기 위해서는 분석기획 접근 방법이 필요
  · 의사결정을 위한 분석기획 발굴
   - "질문 먼저(Question First)" 방식으로 질문의 구체화, 과제 추진 시급성, 구현 가능성으로 과제 선정
   - 분석기획의 목적은 필요데이터 정의, 데이터 확보 역량, 분석 프로세스 등 구체화된 방안의 수립
   - 분석정의서를 통해 분석 활용 시나리오, 분석체계 등을 상세히 정의
      + 전략적 중요도, 실행 용이성, 투자가치로 우선순위를 평가, 마스터 플랜 수립

② 분석 결과의 기여도 평가
 - 일반적으로 ROI(Return Of Investment, 투자 수익률) 또는 업무 효율성 향상에 대한 비율로 측정
 - ROI = (총 이익 - 소요 비용) / 소요 비용 * 100%
 - 업무 효율성 향상의 경우 연관된 업무효율성 향상 항목의 측정 지표 기준을 수립 필요 (ex. 시간)
 - 그 외 회수기간과 전략적 기여도 기준 IT ROI 평가로
  · 비용-효과 분석(Cost-benefit analysis)
  · 정보경제학(Information economics) 기반 방법론 등

2) 분석 모델별 시각화

* 회귀모델

- 변수들 간 상관관계 분석을 위해 히트맵과 산접도를 활용
- 여러 변수들을 동시에 비교, 전체에서 식별이 되는 부분에 대한 수치, 정도를 표현하는 비교 시각화 기법으로 표현
- 각기 다른 변수들과의 관계를 표현하는 관계 시각화 기법으로도 시각화 표현

* 분류 모델

① SVM : 산점도와 구분선을 통한 비교시각화 기법으로 활용 범위와 영역을 구분


② KNN : 비교시각화와 평행좌표계로써 변수들과의 연관성 및 그룹데이터의 경향성을 파악

 이미지1 : https://scipy-lectures.org/_images/sphx_glr_plot_iris_knn_001.png
 이미지2 : https://mblogthumb-phinf.pstatic.net/MjAxOTA1MDhfNzQg/MDAxNTU3MzIxOTQ1NjU5.3gOG7TzHf-nwCN5yXLUdfzp3RXo_E-OwZc5D8eaO854g.LhIOz4GkkqwSQhxRjHbOD0FJzJy4wcD-4ArYigAoso4g.PNG.wideeyed/17.png?type=w800

③ 의사결정나무 : 관계시각화 기법의 트리 다이어그램으로 시각화
 이미지출처 : https://i.imgur.com/ZKDnzOB.png

* 딥러닝 모델

① Node-link Diagrams for Network Architectures (네트워크 구조를 위한 노드-링크 다이어그램)
 : 뉴런과 연결 가중치를 포현하는 Node로 시각화 (일반적인 인공신경망 그림)

② Dimensional Reduction & Scatter Plot (차원축소, 산포도)
 : t-SNE 또는 PCA를 통해 차원을 축소하여 데이터를 2차원으로 표현


③ Line Charts for Temporal Metrics(측정을 위한 선도표)
 : 진행상황에 따른 결과를 선도표로 표현


④ Instance-based Analysis & Exploration(객체 기반 분석 및 탐색)
 : 객체 그룹을 분석하고 분류 정확도를 확인

* 군집모델 분석

- 그룹 클러스터별 단위로 산점도로 시각화

* 연관분석 모델

- 연관규칙 별로 연관성 있는 항목(item)끼리묶어서 관계 시각화 기법인 네트워크 그래프를 활용



댓글 쓰기

0 댓글