Posts List

[빅분기] PART3. 빅데이터 모델링 - 분석 모형 설계 - 분석 환경 구축 (출제빈도 : 하)

           * 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

PART3. 빅데이터 모델링

1. 분석 모형 설계

1-2. 분석 환경 구축

1) 분석 도구 선정

* R

- 1993년 뉴클랜드 대학교(뉴질랜드) 교수들이 통계분석, 시각화를 위해 개발한 오픈소스 언어

① 객체지향 : 모든 데이터가 객체 형태로 관리되어 효율적인 저장과 저장방법 제공
② 고속메모리 처리 : 모든 객체는 메모리로 로딩되어 고속 처리 및 재사용
③ 다양한 자료 구조 : 벡터, 배열, 행렬, 데이터프레임, 리스트 등 자료구조 및 연산기능 제공
④ 최신 패키지 제공 : 오픈소스 커뮤니티 활용
⑤ 시각화 : 다양한 그래픽 도구

- 장점 : 지속적 업데이트, 그래프 및 도표, 시각화 기능에 특화
- 단점 : 대용량 메모리 처리 어려움. 보안 기능 취약. 별도의 모듈 연동이 아니면 확장성 낮음

* 파이썬 (Python)

- 1991년 프로그래머 귀도 반 로섬이 발표한 오픈소스 프로그래밍 언어. 
- 플랫폼 독립적, 인터프리터식(소스 코드를 바로바로 실행, 컴파일러와 대비), 객체지향적 대화형 언어

① 배우기 쉬운 대화 기능의 인터프리터 언어 : 간결하고 쉬운 문법 → 컴파일 / 실행 / 테스트 용이 
② 동적인 데이터타입 결정 지원 : 동적으로 데이터타입 결정 → 데이터타입 무관 코드 작성 가능
③ 플랫폼 독립적 : 운영체제에 독립적이기 때문에 컴파일 없이 동작 실행
④ 내장 객체 자료형과 자동 메모리 관리 : 리스트, 사전, 튜플 등 유연한 객체 자료형 지원 
                                           + 종료시 자동 메모리 해제 (Garbage Collection) 기능 제공

2) 데이터 분할  ※ 자세한 내용 생략 (AI/ML 게시글 참조)

* 데이터 분할 정의 

- 학습 : 테스트 = 7:3 혹은 8:2
- 학습 : 평가 : 테스트 = 4:3:3 혹은 5:3:2  (데이터 충분한 경우)

① 학습 데이터 : 학습하여 분석 모형을 만드는데 직접 사용
② 평가(Validation) 데이터 : 모델이 과대/과소 적합인지 성능 평가하기 위해 사용
③ 검증용 테스트(Test) 데이터 : 최종적으로 일반화된 분석 모형을 검증하는 테스트용 데이터

* 과대적합과 과소적합

① 과대적합(Overfitting) : 학습 데이터에서는 성능이 높지만 테스트 데이터에서는 낮은 경우
   → 데이터 분할 외에 K-fold CV, 정규화 등의 방법이 있음
② 과소적합(Underfitting) : 모형이 너무 단순해 제대로 학습되지 않은 것. 학습 데이터에서도 성능이 낮음
③ 일반화 : 학습-평가 데이터 모두에서 유사한 성능이 나오게 하는 것

댓글 쓰기

0 댓글