* 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

※ 본 게시글은 특히 타 게시글에서 더욱 상세하게 다룬 만큼 빅분기에서 사용하는 용어정리만 하고 자세한 내용은 관련글 링크.

PART3. 빅데이터 모델링

2. 분석 기법 적용

2-1. 분석 기법

업리프트 모델링 - 단계적 추정, 예측 분석

생존분석 - 의료 통계, 설비 분야 사건 예측

회귀분석 - 에측, 추정 분석

시각화 - 원인과 관계 분석

기초통계 - 기초 통계현황 파악

부스팅, 배깅 - 분류 분석

시계열 분석 - 시간상의 예측

요인분석 - 차원 축소

텍스트마이닝 - 감성분석

의사결정나무, 랜덤포레스트 - 분류

신경회로망 - 예측분석

군집분석 - 독립변수들만의 분류, 그룹화

추천,협업 필터링 - 아이템과 사용자 간의 상호 분석을 통한 추천

앙상블 기법 - 추정, 예측, 규범 등의 결합 분석

소셜네트워크 분석 - 관계망 분석

주상분분석 - 원인분석, 차원축소

- 독립변수(들)로 종속변수를 예측하는 기법

- 최소제곱법(=최소자승법, Method of Least Squares)를 이용해 회귀계수 추정

→ 잔차 제곱의 합이 최소가 되게 하는 직선을 찾는 방법

- 결정계수(R-square)를 평가 지표로 주로 사용하며, 1에 가까울수록 높은 설명력을 가짐

- 장점 : 크기와 관계없이 계수들에 대한 명료한 해석 & 손쉬운 통계적 유의성 검증 가능

- 단점 : 선형적인 관계로 데이터가 구성되어 있어야 적용 가능

- 장점 : 범주형/연속형 모두 사용할 수 있으며, 변수 비교가 가능하며 규칙이 직관적으로 이해됨

- 단점 : 트리구조가 복합하면 해석이 어려우며, 미지의 데이터 혹은 데이터 변형에 취약함

- 두뇌세포인 뉴런을 알고리즘화 한 기계학습 기법

- 입력신호가 강도에 따라 가중치 처리되고 활성화 함수를 통해 출력이 계산되는 것이 기본 원리

- 학습을 거쳐 결과가 나오게끔 가중치가 조정(튜닝)된다는 점이 주요 특징

- 높은 복잡성을 가짐으로 입력 자료의 선택에 민감함

신경망에는 튜닝 가능한 가중치와 편향이 있으며, 이를 데이터에 적응하도록 조정하는 과정을 학습이라 정의

- 장점 : 비선형 예측, 다양한 데이터유형, 새로운 학습환경, 불완전한 데이터 입력, 스스로 가중치 학습, Noise강건

- 단점 : 복잡한 만큼 필연적으로 대량의 데이터가 필요 → 학습 시간/비용이 매우 큼. 설명력이 매우 떨어짐

※ 최근 X-AI (Explainable AI) 분야를 통해 대체안이 연구되고 있음

은닉층 수와 노드수 결정이 어려움 등

- 지도학습 기법이며, 고차원 공간에서 초평면을 찾아 이를 활용해 분류 및 회귀를 수행하는 알고리즘

- 데이터가 어느 카테고리에 속하는지 비확률적 이진 선형 분류 모델을 만드는 기법

- 만들어진 분류 모델은 사상된 공간에서 경계로 표현되는데 그 중 가장 큰 폭을 가진 경계를 찾는 원리

- 주어진 데이터를 고차원 특징 공간으로 사상시켜 (using 커널트릭) 비선형 분류에도 사용 가능

- 기존 분류기는 '오류율 최소화'를 목표로 했으나 SVM은 '여백(마진) 최대화'로 일반화 능력의 극대화 추구

- 새로운 자료에 대한 오분류가 매우 낮음

- 선형 분류와 더불어 비선형 분류에도 사용 가능. (커널트릭을 활용해 데이터를 고차원 특징공간으로 사상)

- 장점 : 라이브러리가 오픈되어 있어 사용이 쉬움. 분류, 회귀 모두 가능. 신경망에 비해 소량 데이터. 과대/과소적합 리스크 낮음

- 담점 : 이진분류만 가능. 데이터가 많으면 학습시간이 오래 걸림. 각각 분류에 대한 SVM 모델 구축 필요

- 둘 이상의 거래, 사건에 포함된 항목들의 관련성을 파악하는 탐색적 데이터 분석기법

- 유사한 개체들을 그룹화하여 각 집단의 특성 파악, 각 사건의 연관규칙을 찾는 기법으로 비지도학습에 해당

- 컨텐츠 기반 추천(Contents-based Recommendation)의 기본 방법론

- 그룹 툭성에 대한 특성 분석으로 군집분석과 병행

- 장바구니 분석(Market Basket Analysis)으로도 불림

- 예를들어 장바구니의 아이템들(거래정보)를 담고 구매 패턴과 여러 구매들 사이에서의

상품, 구매행동, 이용자들 간의 연관성ㅇ르 분석할 때 일정한 규칙을 찾아내게 되는 것

- 최소지지도 이상의 빈발항목집함만을 찾아내 연관규칙을 계산하는 기법

※ 빈발항목집합 : 최소지지도 이상을 갖는 항목집합

- 최소지지도 이상의 한 항목집합이 빈발(frequent)하다면 부분집합 역시 빈발항목집합으로 처리

- 최소지지도 미만의 한 항목집합이 비빈발(infrequent)하다면 이 항목을 포함하는 모든 집합은 비빈발항목집합으로 가지치기(pruning)

- 이후 최소신뢰도 기준을 적용, 최소신뢰도에 미달하는 연관규칙은 다시 제거 & 반복(새로운 연관규칙 없을 때까지)

- 장점 : 분석 결과 이해가 쉽고 실제 적용하기 용이함

- 단점 : 품목이 많을수록 연관석 규칙이 더 많이 발견되나 의미성에 대해 사전판단 필요, 상당수의 계산 필요.

- 각 개체들의 유사성을 분석해 높은 대상끼리 일반화된 그룹으로 분류하는 기법

- 주로 분석초기에 데이터 특성파악을 위해 사용

- 같은 군집 내에서는 객체들이 서로 붙고(응집), 다른 군집 내에서는 최대한 멀리(분리) 시키는 원리

- 계층적 군집분석과 비계층적 군집분석이 있음

- 하나의 군집 내에 속한 개체들의 특성은 동일

- 군집의 개수 또는 구조와 관계없이 개체간의 거리를 기준으로 분류

- 개별 군집의 특성은 군집에 속한 개체들의 평균값으로 표기

- 유사성 계산은 방법에 따라 거리와 유사성으로 구분

- 거리는 값이 작을수록 두 관찰치가 유사함을 의미 (유클리드 거리, 맨하탄 거리 등)

- 유사성은 값이 클수록 두 관찰치가 서로 유사함을 의미 (코사인값, 상관계수 등)

- 장점 : 다양한 데이터 형태에 적용 가능, 특정 변수에 대한 정의가 필요하지 않은 용이한 탐색적 기법

- 단점 : 초기 군집수, 관측치간 거리 등의 결정에 따라 결과가 상이. 사전 주어진 목표가 없어 결과 해석 어려움

Posts List

[빅분기] PART3. 빅데이터 모델링 - 분석 기법 적용 - 분석 기법 (출제빈도 : 상)

PART3. 빅데이터 모델링

2. 분석 기법 적용

2-1. 분석 기법

1) 분석 기법 개요

* 학습 유형에 따른 데이터 분석 모델

* 데이터 분석 알고리즘과 분야 (알고리즙 - 분야)

2) 회귀분석

* 선형회귀분석

* 로지스틱 회귀분석 ※ 관련글 : [데이터마이닝] Logistic regression

* 회귀분석의 장단점

3) 의사결정나무 (Decision Tree)

* 의사결정나무의 구성

* 의사결정나무의 종류

* 의사결정나무의 분석 과정

* 의사결정나무의 대표적 알고리즘

* 의사결정나무의 장단점

4) 인공신경망 (ANN : Artificial neural Network)

* 인공신경망의 특징

* 인공신경망의 발전

* 인공신경망의 원리

* 학습

* 딥러닝 모델 종류

* 인공신경망의 장단점

5) 서포트백터머신 (SVM : Support Vector Machine)

* SVM의 주요 요소

* SVM의 핵심적 특징

* SVM의 장단점

6) 연관성 분석 (Association Analysis)

* 연관규칙(Association Rule) 순서

* 아프리오리(Apriori) 알고리즘

* 연관성분석의 장단점

7) 군집분석

* 군집분류 시 기본 가정

* 군집분석의 척도

* 군집분석의 종류

* 군집분석의 장단점

관심 있을 만한 글

댓글 쓰기

0 댓글

About me

팔로어

이 블로그 검색

Lecture Note

[빅분기] PART4. 빅데이터 결과 해석 - 분석결과 해석 및 활용 - 분석결과 활용 (출제빈도 : 하)

Family Site

키워드