Posts List

[빅분기] PART4. 빅데이터 결과 해석 - 분석결과 해석 및 활용 - 분석결과 시각화 (출제빈도 : 중)

                 * 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

PART4. 빅데이터 결과 해석

2. 분석결과 해석 및 활용

2-2. 분석결과 시각화

1) 데이터 시각화 개요

* 데이터 시각화 정의

- 정보를 명확하고 효과적으로 전달하는 목적으로 데이터 사이의 관계를 시각적으로 표현
- 기능적 측면(Stuart K. Card, 1999) : 추상적인 데이터를 컴퓨터의 쌍방향적 시각 표현을 통해 이해와 인식의 정도를 증폭하는 것
- 심미적 측면(Andy Kirk, 2002) : 동일한 범주안에서 많은 양의 데이터에 의미를 부여함으로써 공간에 배치된 숫자와 패턴을 인지하게 하는 방법

* 데이터 시각화 특성

- 정보를 습득하는 시간을 절감하고 데이터에 대한 즉각적인 판단
- 데이터의 특징과 패턴, 추세를 직관적으로 제공하여 이해를 효과적으로 도움
- 하나의 시각화 자료를 통해 시간, 공간, 분포 등 다양한 측면에서의 표현이 가능
- 그래픽 도구를 활용해 데이터의 의미, 관계, 차이, 분포 등을 선명히 표현
- 통계적 그래픽 접근방법 : 통계적 정보를 2차원 또는 3차원 공간에 시각적으로 표현하는 방법
- 주제 지도학적 접근방법 : 특정 주제의 지리적 분포와 패턴을 나타내는 지도 형태의 표현 방법

* 주요 용어

① 탐색적 자료 분석(EDA) : 탐색적 기법을 통해 데이터를 이용하는 방법. 주요 특징을 시각적 방법을 이용해 분석
② 차트(Chart) : 개별적 데이터 표현하는 방식.
③ 데이터셋(Data Set) : 데이터 시각화의 기초가 되는 데이터 집합
④ 축(Axis) : 데이터가 표시될 위치에 대한 기준선. 2차원 그래프는 2개, 3차원은 3개
⑤ 스케일(Scale) : 데이터 값의 범위.
⑥ 범례(Legend) : 표현되고 있는 기호나 선 등이 어떤 의미인지 설명
⑦ 이상치(Outliers) : 정상분포를 벗어나는 데이터. 시각화 통해 효율적으로 발견 가능

* 데이터의 시각적 속성

- 데이터 값을 정량화 가능한 시각적 속성으로 나타내 그래픽으로 표현
- 시각적 속성의 종류 : 위치, 현태, 크기, 색, 굵기, 선 유형 등
※ 위치, 크기, 선 굵기, 색 속성 : 연속형과 이산형 모두에 적용
※ 선 유형 속 성 : 연속형 데이터에만 적용 가능

* 데이터 시각화 방법

- 시간 : 막대, 누적막대, 점/선 그래프
- 분포 : 히스토그램, 파이, 도넛, 트리맵, 누석연속 그래프
- 관계 : 산점도, 버블차트, 히트맵
- 비교 : 히트맵, 체르노프페이스, 스타차트, 평행좌표계, 다차원척도법
- 공간 : 지도 매핑

2) 데이터 시각화 영역

* 정보 디자인(Information Design)

- 시각 디자인의 하위 영역
- 정보를 구성해 효율적으로 사용할 수 있게 하는 디자인 기술 및 업무
- 효과적으로 전달하기 위한 수단으로서 그래픽 디자인을 강조
- 데이터시각화 + 정보시각화 + 인포그래픽 모두 포괄

* 정보 시각화(Information Visualization)

- 방대한 양의 정보를 한 번에 사용자가 보고 이해할 수 있도록 직관적으로 표현하는 방법
- 수치정보 뿐만 아니라 텍스트, 지형과 같은 비수치 정보까지 포함
- 카토그램 / 분기도 / 개념도 / 계통도 / 네트워크 다이어그램 / 트리맵 / 하이퍼볼릭 트리 등 도구 사용
- 데이터시각화 : 그래픽을 이용해 정보를 명확하게 표현하는 것 강조
- 정보시각화 : 큰 범위의 집합에 대한 시각적 표현 방법 강조. 데이터시각화 + α

* 인포그래픽(Infographic)

- 복잡한 수치나 글로 된 정보와 지식을 차트, 지도, 픽토그램, 다이어그램, 일러스트레이션 등 활용 표현
※ 픽토그램 : picto + telegram. 사물, 시설, 행위 등을 누가 봐도 알 수 있게 만들어진 그림 문자 (ex.비상구)
- 설득형 메시지를 전달하기 위해 주로 사용
- 정보를 빠르고 분명하게 표현하는 것에 중점
- 데이터시각화가 전문영역에서 사용된다면, 인포그래픽은 일반일을 대상으로 정보와 메시지 전달에 적합
- 기본 요소 : 비주얼(Visual), 내용(Content), 지식(Knowledge)
- 유형 : 통계 기반, 타임라인 기반, 프로세스 기반, 위치 및 자리기반
- 장점 : 시각적인 즐거움, 이해 쉬운 전달, 오랜 기억 유지, 자발적 확산

3) 시간 시각화

* 시간 시각화 정의

- 시간에 따른 데이터의 변화 표현
- 데이터의 경향성 파악에 주로 사용
- 데이터 : 특정 시점의 값을 표현하는 이산형 데이터, 변화하는 값을 표현하는 연속형 데이터
- 이산형 : 막대그래프, 누적막대그래프, 묶은막대그래프, 그래프
- 연속형 : 꺾은그래프, 계단그래프, 추세

* 막대 그래프

- 데이터 값을 길이로 표현한 형태. 상대적인 차이를 한눈에 알아보기 쉬움
- 가로축 = 시간, 세로축 = 크기(범위)
- 막대에 색상을 표시함으로써 데이터 상태나 특징 표현 가능
- 데이터 값은 막대의 길이에만 영향을 미치며, 폭이나 간격과는 무관

* 누적 막대 그래프

- 두 개 이상의 변수를 동시에 다룰 때 막대의 영역을 구분하여 변수들의 값을 표현
- 세부항목 각각의 값과 전체의 합을 함께 표현할 때 유용

* 묶은 막대 그래프

- 두 개 이상 변수를 동시에 다룰 때 사용
- 세부항목의 값의 변화를 표현할 수 있지만 누적합계나 추이 파악은 어려움

* 점 그래프

- 가로축에 대응하는 세로축의 값을 점으로 표현 (면적을 표현할 필요가 없어 적은 공간에 표현 가능)
- 점의 집중 정도와 배치에 따라 흐름을 파악하기 용이

* 꺽은선그래프(연속 시계열 그래프)

- 점그래프의 점과 점 사이를 선으로 연결한 그래프. (=연속된 특성을 표현)
- 경향성을 뚜렷하게 보여주기 위해 주로 사용
- 세로축, 가로축 길이를 짧게 줄이면 변화가 급격하게 보임(확대 효과)
※ 세로축이 0부터 시작하지 않으면 효과는 증폭되나 절대크기를 표현하지 않기 때문에 해석 부작용 주의
- 경우에 따라 그래프에 점을 표시하지 않을 수 있음

* 계단그래프

- 점과 점사이를 직접 연결하지 않고 변화가 생길 때까지 일정 선을 유지하다가 바뀌는 지점에서 급격하게 변화
- 연속된 '변화'를 표현하기에 적합. 특정 시점의 변화를 표현하는 데는 계단 그래프가 유리
- 연도별 법인세율 변화, 연도별 최저임금 변화 등에 사용

* 추세선

- 데이터 값의 즉각적인 변화보다는 변화나는 경향성을 보여주는 직선 또는 곡선
- 다양한 함수를 적용해 구할 수 있으며, 지수형, 로그형, 선형, 이동평균형 등이 있음

4) 분포 시각화

* 분포 시각화 정의

- 분포를 시각적으로 표현. 특정 변수의 값들이 어떻게 분포되어 있는지 평가하기 위해 사용
- 최대, 최소, 전체분포를 나타내는 그래프로 표현
- 히스토그램, 파이차트, 도넛차트, 누적막대그래프, 트리맵 등으로 시각화

* 히스토그램(Histogram)

- 세로축은 데이터 분포 정도, 가로축은 특정 변수들의 구간 폭
- 데이터셋 안에서 특정 변수의 값이 어떻게 분포되어있는지 파악하기 위해(도수분포) 주로 사용
- 도수분포표 : 데이터 값의 산출 분포를 표로 보여주는 목록이나 표
- 구간을 설정해 표현하기 때문에 적절한 구간 폭을 선택하고 각각의 막대가 동일한 폭을 갖도록 설정 필요
- 구간폭이 좁으면 분포 차이를 잘 표현할 수 있지만 전체적인 흐름 파악이 어려움
- 구간폭이 넓으면 데이터 분포의 급격한 변화를 표현하기 어려움
- 누적히스토그램(Cumulative Histogram)은 각 구간의 값을 누적하여 표현. 출현 빈도를 오른쪽으로 누적하면서 표시하며 마지막 막대는 전체 데이터 총 수를 나타냄

* 원그래프(파이차트)

- 데이터 비율(%)에 따라 조각으로 나누어서 데이터의 분포를 표현
- 막대그래프와 같이 데이터의 값을 정확하게 표현하기 어려움
- 하나의 분류에 대한 값의 분포를 표현하기 때문에 값을 표현하기 위해서는 각각의 차트 필요
- 그래프 조각만으로 크기 비교가 어렵기 때문에 실제 데이터값이나 점유율 등 추가 정보를 그래프에 포함하기도 함

* 도넛차트

- 누적막대그래프를 도넛모양으로 만든 형태
- 원그래프(파이차트)는 면적으로 분포비율을 표현 ↔ 도넛차트는 면적이 아닌 길이로 데이터 값의 정도 표현
- 같은 성격의 경우 여러 개의 차트를 겹쳐서 보여줄 수 있음
 ※ 중첩도넛차트 ; 도넛차트 여러개 겹친 것. 여러 분류에 대한 값을 하나의 차트로 표현 가능

* 트리맵

- 하나의 사각형 영역에서 세부 사각형들의 크기로 데이터의 분포를 시각화
- 내부의 사각형도 하위 분류를 적용해 다시 맵을 구성할 수 있음 
  → 계층형/트리 구조를 가진 데이터를 표현하는데 유용

* 누적연속그래프(누적영역차트)

- 시간 변화에 따른 값의 변화를 선그래프의 영역으로 표현. (가로축 = 시간, 세로축 = 데이터 값)
- 누적막대그래프와 유사하지만 시간에 따라 변화하는 값의 흐름, 분포를 더 잘 보여줌
- 아래 부분의 데이터 값이 윗부분의 위치에 영향을 주기 때문에(값 누적) 분포를 표현하는데 더욱 적합
  → 경향성을 알아보기는 다소 어려움

5) 관계 시각화

* 관계 시각화 정의

- 데이터 사이의 관계를 시각적으로 표현하는 것
- 데이터셋에 변수가 2개 이상이 있을 때 이 변수들의 상관관계 표현

* 산점도(스캐터 플롯, Scatter Plot)

- 2차원, 3차원 좌표계를 활용해 두 변수의 값을 점으로 표시한 것
- 점들의 집합이 모여서 두 변수 사이의 관계를 직관적으로 표현
- 점들의 분포에 따라 집중도(강도, 영향력)를 확인할 수 있음 + 관계 추정을 위해 추세선 추가
- 점의 크기, 형태, 색상을 다르게 하여 하나의 산점도에 다양한 데이터 특징을 표현 가능

* 버블차트(Bubble Chart)

- 산점도에 제3의 변수값을 원의 크기로 표현한 그래프. 한번에 3개 변수 비교 가능
- 제3의 값을 표시하는 원(버블)은 면적으로 표현. (반지름이나 지름으로 표현되면 실제 값보다 더 크게 그려짐)
- 도시별 인구밀집도, 도시별 우유판매량 등 국가나 지역에 따른 값의 분포를 표현하는데 매우 유리

* 히트맵(Heat Map)

- 데이터 분포와 관계에 대한 정보를 색(Heat)로 표현한 그래프
- 데이터를 식별하기 위해 각각의 칸마다 색으로 수치의 정도를 표현

6) 비교 시각화

* 비교 시각화 정의

- 하나 이상의 변수에 대해 변수 사이의 차이와 유사성 등을 표현하는 방법
ex. 자동차 구매할 때 제조사/모델에 따라 크기/엔진출력/색상/가격/편의성 등 변수 고려하는 경우
ex. 컴퓨터 구매시 노트북/데스크탑 유형에 따라 CPU성능/메모리/용량/화면 크기 등 변수 고려하는 경우

* 히트맵(Heat Map)

- 관계시각화 뿐만 아니라 비교시각화 도구로도 유용하게 사용
- 먼저 표를 작성하고 표의 숫자 대신 색상으로 값의 높고 낮은 관계를 표현
- 하나의 행은 관측 단위, 하나의 열은 비교를 위한 변수

* 체르노프 페이스(Chernoff Faces)

- 사람은 사람의 얼굴을 쉽게 구분한다는 점에서 착안
- 데이터 표현에 따라 달라지는 차이를 얼굴 모양으로 나타내는 방법
- 얼굴 모양에서 귀/머리카락/눈/코 등을 각각의 변수에 대응해 표현하는 방법
- 얼굴을 표현할 때 사용되는 요소 ↓
① 얼굴형 : 얼굴 길이, 너비, 윤곽
② 입 : 입의 높이, 너비, 입모양
③ 눈 : 눈의 높이, 눈의 너비
④ 머리카락 : 머리카락 높이, 너비, 모양
⑤ 코 : 코의 높이, 너비
⑥ 귀 : 귀의 높이

* 스타차트(Star Chart)

- 하나의 공간에 변수를 표현하는 축을 그리고 축에 표시된 해당 변수의 값들을 연결하여 표현하는 그래프
- 축이 시작되는 시작점(중점)은 최소값, 가장 먼 끝점은 최대값
- 여러 변수 값들을 비교하여 부족하거나 넘치는 변수를 표현하는데 적합
- 선의 모양이나 색을 다르게 하는 경우 여러 속성을 한번에 표현 가능

* 평행좌표계(Parallel coordinates)

- 체르노프페이스는 한 대상의 특징을 명확히 보여주지만 여러 대상을 한번에 보여주기 힘듦
- 스타차트의 여러 축을 평행으로 배치하고 축의 윗부분을 최대값, 아래부분을 최소값으로 하여 값들은 선으로 연결
- 하나의 대상이 변수 값에 따라 위아래로 이어지는 연결선으로 그려지는 특징이 있음

* 다차원척도법(MDS : Multi-Dimensional Scaling)

- 객체 간 근접성을 시각화 하는 통계기법
- 모든 변수를 비교해서 비슷한 대상을 그래프 상에서 가깝게 배치하는 방법
- 대상들 간 거리 또는 유사성을 이용해 차원을 2, 3차원으로 축소해 공간상에 위치
계량형 다차원척도법(metric MDS) : 실제 측정거리 값이나 유클리드 거리로 표현
비계량형 다차원척도법(non-metric MDS) : 절대적인 크기 무시, 크기 순서 등의 순위에 관한 정보로 표현

7) 공간시각화

* 공간시각화 정의

- 장소나 지역에 따른 데이터의 분포를 표현하는 것
- 실제 지도나 지도모양의 다이어그램을 배경으로 데이터 위치 시각화
- 위치나 거리 또는 색상을 이용해 정보 표현 가능 (정확한 투영(projection) 필요)
- 공간시각화는 지형코드화 과정과 매핑과정을 거침
 ① 지형코드화(Geocoding)
   : 래스터 이미지를 고쳐 실세계 지도 투영이나 좌표계에 일치시키는 과정(위도, 경도 활용)
 ② 매핑(Mapping) : 좌표값을 가진 데이터를 다양한 방법으로 지도에 표시

* 단계구분도(Choropleth Map)

- 여러 지역에 걸친 정량정보를 나타낼 때 데이터가 분포된 지역별로 색을 다르게 칠한 지도
- 색으로 밀도를 표현할 때 가장 효과적

* 카토그램(Cartogram)

- 데이터 값의 변화에 따라 지도의 면적을 인위적으로 왜곡하여 직관적인 이해가 가능하도록 한 다이어그램
- 단계구분도 : 데이터값의 정확한 표현 ↔ 카토그램 : 면적이 넓은 지역의 값이 전체를 지배하는 듯 시각적 왜곡발생

댓글 쓰기

0 댓글