Posts List

[빅분기] PART2. 빅데이터 탐색 - 데이터 탐색 - 고급 데이터 탐색 (출제빈도 : 하)

       * 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

PART2. 빅데이터 탐색

2. 데이터 탐색

2-2. 고급 데이터 탐색

1) 시공간 데이터 탐색

* 시공간 데이터 개념

- 공간적 정보(데이터)에 시간의 흐름(인력정보 등)이 결합된 다차원 데이터
- 무선 이동 통신 기술의 발달로 (특히 스마트폰) 중요성이 커지고 있는 상황

① 시간 데이터
 - 기존 데이터는 어느 한 시점에 대한 스냅샷. 스냅샷의 유효시간, 거래시간과 같은 시간 표현을 정의
 · 유효 시간 : 데이터 발생 / 소멸 시간
 · 거래 시간 ; 관리 시스템을 통해 처리된 시간
 · 사용자 정의 시간 : 유효 시간이나 거래 시간이 없는 경우 별도 정의
 · 스냅샷 데이터 : 시간 개념이 필요하지 않아 거래, 유효시간 미지원
 · 거래 시간 데이터, 유효 시간 데이터 : 각각 거래, 유효시간만 지원
 · 이원 시간 데이터 : 둘 다 지원

② 공간 데이터
 - 기존 데이터베이스보다 복잡하고 다양한 유형의 값을 갖는 공간데이터를 효율적 관리/저장/이용에 초첨
 · 비공간 타입 : 기본적인 데이터 유형을 가진 속성
 · 래스터(Raster) 공간 타입 : 실세계에 존재하는 객체의 이미지
 · 벡터 공간 타입 : 점, 선, 면 등의 요소로 구성
 · 기하학적 타입 : 벡터 타입 요소로부터 거리, 면적, 길이와 같은 유클리드 기하학 계산 값으로 표현
 · 위상적 타입 : 공간 객체 간의 관계를 표현. 
    → 방위, 중첩, 포함, 교차, 분리 등과 같은 위치적 관계로 처리 시 대량의 공간을 필요
       → 일반적으로 저장되지 않고 보통 공간객체로부터 동적으로 계산

③ 공간 데이터 모델
 · 관계형 모델 : 데이터 표현이 유연하지 못함. 실세계 공간 객체 특징 적절히 표현 못함.
 · 객체지향 모델
  - 비 구조적이고 복잡한 데이터를 자연스럽게 표현
  - 데이터 계측 구조를 이용한 연산이 용이
  - 새로운 함수 확장 쉬움
  - 데이터 무결성 검사 쉬움
  - 설계 단계 모델과 구현 단계 모델 사이의 불일치 문제 해결

④ 시공간 데이터 (시간+공간 데이터 결합 형태)
 · 실제 객체들은 공간 정보 뿐만 아니라 시간 정보와 연관이 있음. 

* 시공간 데이터 분석

① 시공간 데이터에 대한 질의어
 · 정의언어
  - 시공간 테이블 인덱스 및 뷰(view)의 정의문, 변경문 등 포함
  - 공간, 시간적 속성 모두 포함. 점, 선, 면 등 공간속성 타입이 추가 되어 있음.
 · 조작언어
  - 객체의 삽입, 삭제, 변경 등의 검색문 등
  - 시간지원 연산자, 공간 연산자를 포함. 객체에 대한 공간관리와 이력정보를 제공

② 시공간 데이터의 연산
 · 시공간위상 관계 연산
  - 공간위상 연산자 : 두 객체 간 공간 영역상 관계에 대해 참/거짓 반환
  - 시간위상 연산자 : 두 객체의 유효시간 정보를 기반으로 선후관계를 평가하여 참/거짓 반환
 · 시공간기하 연산
  - 공간기하 연산자 : 두 객체 간의 거리 연산
  - 시간기하 연산자 : 지정된 시간 혹은 다른 객체의 유효시간과 계산을 통해 객체의 유효시간값을 변경하는 연산

* 적용 및 응용 분야

- 지리정보 시스템, 위치기반 서비스, 차량 위치추적 서비스 등에 활용

2) 다변량 데이터 탐색

- 변수들 간 인과관계의 규명과 분석하는 것. (상관관계 활용 차원 축소, 개체 분류, 데이터 분석)

* 종속변수와 독립변수 사이의 인과 관계

다중회귀(Multiple Regression)  관련글 : [데이터마이닝] 다중회귀분석
 - 독립변수가 2개 이상인 회귀모형. 각 독립변수는 종속변수와 선형관계가 있음을 가정
 - 변수를 추가하여 분석내용의 질적 향상 도모 (단순회귀분석 보다 상대적으로)
 - 종속변수 설명하는 독립변수가 2개 일 때 단순회귀모형은 모형설정 부적확, 계수 추정량에 편이(bias)야기
 - 최소자승법을 이용해 결과 도출 가능
 - 기본 가정
  · 모수에 대해 선형인 모형
  · 오차항의 평균은 0, 분산은 모든 관찰치에 대해 일정한 분산(σ^2)을 갖는다.
  · 오차항은 서로 독립이며 공분산은 0 (다른 간찰치 간의 오차항은 상관이 없음)
  · 오차항의 각 독립변수 역시 독립인 관계
  · 오차항은 정규분포를 따름 N(0, σ^2)

로지스틱 회귀(Logistic Regression) 관련글 : [데이터마이닝] 분류 - 로지스틱 회귀
 - 독립변수의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 데 사용하는 통계 기법
 - 종속변수가 이항형 문제(범주의 개수가 두 개인 경우)를 지칭할 때 사용
 - 종속변수가 이진적이기 때문에 조건부 확률(P(y | x))의 분포가 정규분포가 아닌 이항분포 따름
   ※ 이항분포 ; 베르누이 시행을 n번 독립적으로 시행할 때 성공횟수를 X로 정의한 이산확률분포
 - 독립변수는 실제 값, 이진 값, 카테고리 등 어떤 형태든 될 수 있음.
 - 종속변수는 연속변수 (수입, 나이, 혈압) 또는 이산 변수(성별, 인종)으로 구분
 - 이산변수 값 후보가 2개 이상 존재하면 임시 변수로 변환하여 로지스틱 회귀 수행

분산분석(ANOVA : Analysis of Variance) 관련글 : [데이터마이닝] 단순회귀분석
 - 3개 이상의 표본들의 차이를 표본평균 간의 분산과 표본 내의 관측치간 분산을 비교하여 가설을 검정
 - 일원분산분석(One-way ANOVA) : 단 하나의 인자에 근거해 여러 수준으로 나누어지는 분석
  · 일원분산분석은 단일용인변수(독립변수)에 의해 종속변수에 대한 평균치의 차이를 검정하는데 이용
  · 일원분산분석을 위해 종속변수(등간 척도)와 정수값을 갖는 요인변수가 각 하나여야 하고 요인변수 정의 필요
   ex. 3학급 (A, B, C반) 간 성적의 평균 차이가 존재할 것이다.
   ex. 판매방법이나 지역에 따라 자사 매출액 평균에 차이가 존재하는가?

④ 다변량 분산분석(Multi Variate ANOVA)
 - 측정형 변수, 종속 변수가 2개 이상인 분산 분석
 - 이원분산분석(Two-way ANAVA) : 두 개 이상의 인자에 근거하여 여러 수준으로 나누어지는 분석
  · 종속변수의 영향이 두 개 이상의 독립변수, (ex. 성별, 연령에 따른 직무만족도 차이)

* 차원축약

- 변수들 간 상관관계를 이용해 변수를 줄이는 방법으로 변수유도기법이라고도 부름

주성분분석 (PCA : Principal Component Analysis) 관련글 : [데이터마이닝] 회귀분석에서 변수선택법
 - 다변량자료에서 비정규성(abnormality)나 이상치를 발견 위해 
   상관관계(또는 공분산)가 존재하지 않는 변수(주성분)를 구하는 것

요인분석 (Factor Analysis)
 - 다수 변수의 상관관계를 분석하여 공통차원들을 통해 축약해 나가는 방법
 - 다수 변수들 간 정보손신을 최소화하면서 소수의 요인(Factor)로 축약
 - 독립변수, 종속변수의 개념이 없다.
 - 추론통계가 아닌 기술통계기법에 의해 수행 (ex. 상관분석 등)
 - 변수 축소 / 제거 / 특성파악 / 타당성 평가 / 변수생성 을 목적으로 함
  · 변수 축소 : 여러 개 관련변수가 하나의 요인으로 묶임
  · 변수 제거 : 요인에 포함되지 않거나 중요도가 낮은 변수 제거
  · 변수 특성 파악 : 관련된 변수들의 묶음으로 상호독립성을 파악하기 용이
  · 타당성 평가 : 그룹이 되지 않은 변수의 특성을 구분
  · 요인점수를 통한 변수 생성 : 회귀, 군집, 판별분석 등에 적용 가능한 변수를 생성

정준상관분석 (Canonical Analysis)

 - 두 변수집단 간의 연관성을 각 변수집단에 속한 변수들의 선형결합(Linear combination)의 상관계수를 이용해 분석하는 방법
 ※ 회귀분석과 비슷하지만, 회귀분석은 하나의 반응변수를 여러 개의 설명변수를 설명할 때 가장 설명력이 높은 변수들의 선형결합을 찾아 인과관계를 생각하는 반면 정준분석에서는 이와 같은 인과성이 없다.
 - 정준변수 : 새로 만들어진 선형 결합
 - 정준산관계수 : 정준변수들 사이의 상관계수
 - 두 집단에 속하는 변수들의 개수 중 변수의 개수가 적은 집단에 속하는 변수의 개수만큼 정준변수 생성

* 개체유도

개체들의 특성을 측정한 변수들의 상관관계를 이용해 유사한 개체를 분류하는 방법

군집분석 (Cluster Analysis)  관련글 : [데이터마이닝] 계층적 군집화비계층적 군집화
 - 모집단 또는 범주에 대한 사전정보가 없는 경우 관측값 사이의 거리(유사성)을 이용해 군집화 하는 기법
 - 군집 간의 거리에 대한 정의가 가장 중요함. 어떻게 정의하느냐에 따라 유사성에 대한 척도가 형성
 - 계층적(hierarchinal) 방법 : 가까운 개체끼리 묶거나 떨어진 개체를 분리해 가는 방법. 
   ※ 한번 결합된 개체는 다시 분리되지 않는 것이 특징
 - 비계층적(nonhierarchical) 방법 (=최적분화(partitioning) 방법)
    : 다변량 자료의 산포를 나타내는 측도를 이용해 이들 판정기준을 최적화시키는 방법으로 군집화
   ※ 한번 분리된 개체도 반복적으로 시행하는 과정에서 재불류 될 수 있는 것이 특징
 - 조밀도에 의한 방법 ; 데이터가 분포한 특성에 따라 군집화
 - 그래프를 이용하는 방법 ; 다차원 자료를 2차원 또는 3차원으로 축소 가능하다면 시각적 차원에서 군집 형성

다차원 척도법 (MDS : Multi-Dimensional Scaling)
 - 다차원 관측값 간의 거리 또는 비유사성을 이용해 원래 차원보다 낮은 차원(보통 2차원)의 
   공간에 위치 시켜(spatial configuration) 개체들 사이의 구조 또는 관계를 쉽게 파악하는 기법
 - 차원 축소와 개체들의 상대적 위치를 통해 관계를 파악하고, 공간적 배열에 대한 해석에 중점을 둠

판별 분석 (Discriminant Analysis)
 - 2개 이상의 그룹으로 나누어진 개체에 대해 분류에 영향을 미칠 것 같은 특성을 측정하고 
   이를 이용해 새로운 개체를 분류하는 방법
   ※ 로지스틱 판별분석 : 분류 하는 도구(판별식)을 로지스틱 회귀분석을 이용하는 방법

3) 비정형 데이터 탐색

* 비정형 데이터

미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보

① 비정형 데이터 특징
 - 일반적으로 텍스트 중심. 날짜, 숫자, 사실과 같은 데이터도 포함
 - 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움
   ※ 정형 데이터 : 수집이 쉽고, 파일 형태의 스프레드시트라도 내부 형식을 가지고 있어 처리가 쉬움
   ※ 반정형 데이터 : 보통 API형태로 제공되기 때문에 데이터 처리 기술이 요구

② 비정형 데이터 관리 및 분석 의미 도출
 - 규격화의 어려움이 있어 저장, 관리의 어려움이 있음.
 - 정형 데이터에 비해 차지하는 저장 공간이 큼
 - 정형화되지 않은 데이터로 분석이 용이하지 않음


* 비정형 데이터의 분석

① 데이터 마이닝 (Data Mining)
 - 대규모 데이터 안에서 체계적이고 자동으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정
 - 통계학~패턴인식에 이르는 다양한 계량 기법을 사용
 - 통계학 쪽에서 발전한 EDA, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론이 쓰임
 - DB쪽에서 발전한 OLAP(온라인 분석처리), AI쪽에서 발전한 SOM(자기조직화지도), 신경망, 전문가시스템 등의 방법론이 쓰임
 - 신용평정 시스템, 신용평가모형 개발, 사기탐지 시스템, 장바구니 분석과 같이 다양한 분야에 사용
 - 자료에 의존하여 현상을 해석하기 때문에 자료(데이터)가 현실을 충분히 반영하지 못하면 오류 발생할 수 있음.
 - 분류(Classification) : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론
   (ex. 경쟁자에게로 이탈한 고객)
 - 군집화(Clustering) : 특성을 공유하는 군집을 찾는다. 특성에 대한 정보가 없다는 점이 분류와 차이점
   (ex. 유사 행동 집단의 구분)
 - 연관성(Association) : 동시에 발생한 사건 간의 관계 정의
   (ex. 장바구니에 동시에 들어가는 상품들의 관계 규명)
 - 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계를 규명. 기간의 특성을 제외하면 연관성 분석과 유사
   (ex. 슈퍼마켓과 금융상품 사용에 대한 반복 방문)
 - 예측(Forecasting) : 대용량 데이터집합 내의 패턴을 기반으로 미래를 예측
   (ex. 각종 수요 예측)

텍스트 마이닝 (Text Mining)
 - 인간의 언어로 이루어진 비정형 텍스트를 자연어처리 방식을 이용해 의미를 발견하는 기법
 - 자연어처리(NLP)
  · 인간의 언어 현상을 기계를 이용해 모사할 수 있도록 연구하는 AI 주요 분야
  · 언어 자체를 연구하는 언어학과 언어 현상 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊음
  · 구현을 위해 수학적, 통계적 도구를 많이 활용. 특히 기계학습 도구를 많이 사용
  · 정보검색, QA시스템, 문서 자동분류, 신문 기사 클러스터링, 대화형 Agent 등에 활용

오피니언 마이닝 (Opinion Mining)
 - 텍스트 마이닝의 한 분류. 특정 주제에 대한 사람들의 주관적 의견을 통계, 수치화하여 객관적으로 바꾸는 기술
 - 텍스트 마이닝과 같이 문장을 분석하기 때문에 NL를 사용하지만,
   텍스트 마이닝은 문장 내 주제를 파악하고, 오피니언 마이닝은 감정, 뉘앙스, 태도 등을 판별하는 차이가 있음.
   때문에 감정 분석(Sentiment Analysis)라고도 불림
 - 서비스/상품에 대한 시장 규모 예측, 소비자 반응, 입소문 분석 등에 활용. (댓글, SNS 등의 데이터 활용)

웹 마이닝 (Web Mining)
 - 웹 자원으로부터 의미있는 패턴, 추세 등을 도출해 내는 기술
 - 기기에 쌓이는 로그, 사용자 행동 및 작성 컨텐츠 등 모든 것을 포함
 - 웹 환경에서 얻어지는 고객 정보, 특정 행위, 패턴 등의 정보를 이용해 다양한 활동(마케팅)에 활용
 - 데이터 마이닝을 이용해 문서들과 서비스로 부터 정보를 추출할 수 있음
 - 대량의 로그기록을 기반으로 정보를 수집하고 자료를 정제
 - 웹상의 고객 행동기로과 CRM 등을 연결하는 등 다양한 서비스에 접목 가능
 - 웹 구조 마이닝 : 웹 사이트로부터 구조적 요약 정보를 추출
 - 웹 내용 마이닝 : 웹 사이트 또는 페이지로부터 의미 있는 내용 추출
 - 웹 사용 마이닝 ; 웹상의 사용자의 행동 등 패턴으로부터 통찰을 이끌어 내는 방법

댓글 쓰기

0 댓글