* 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.
PART3. 빅데이터 모델링
1. 분석 모형 설계
1-2. 분석 환경 구축
1) 분석 도구 선정
* R
- 1993년 뉴클랜드 대학교(뉴질랜드) 교수들이 통계분석, 시각화를 위해 개발한 오픈소스 언어
① 객체지향 : 모든 데이터가 객체 형태로 관리되어 효율적인 저장과 저장방법 제공② 고속메모리 처리 : 모든 객체는 메모리로 로딩되어 고속 처리 및 재사용③ 다양한 자료 구조 : 벡터, 배열, 행렬, 데이터프레임, 리스트 등 자료구조 및 연산기능 제공④ 최신 패키지 제공 : 오픈소스 커뮤니티 활용⑤ 시각화 : 다양한 그래픽 도구
- 장점 : 지속적 업데이트, 그래프 및 도표, 시각화 기능에 특화- 단점 : 대용량 메모리 처리 어려움. 보안 기능 취약. 별도의 모듈 연동이 아니면 확장성 낮음
* 파이썬 (Python)
- 1991년 프로그래머 귀도 반 로섬이 발표한 오픈소스 프로그래밍 언어.
- 플랫폼 독립적, 인터프리터식(소스 코드를 바로바로 실행, 컴파일러와 대비), 객체지향적 대화형 언어
① 배우기 쉬운 대화 기능의 인터프리터 언어 : 간결하고 쉬운 문법 → 컴파일 / 실행 / 테스트 용이 ② 동적인 데이터타입 결정 지원 : 동적으로 데이터타입 결정 → 데이터타입 무관 코드 작성 가능③ 플랫폼 독립적 : 운영체제에 독립적이기 때문에 컴파일 없이 동작 실행④ 내장 객체 자료형과 자동 메모리 관리 : 리스트, 사전, 튜플 등 유연한 객체 자료형 지원 + 종료시 자동 메모리 해제 (Garbage Collection) 기능 제공
2) 데이터 분할 ※ 자세한 내용 생략 (AI/ML 게시글 참조)
* 데이터 분할 정의
- 학습 : 테스트 = 7:3 혹은 8:2
- 학습 : 평가 : 테스트 = 4:3:3 혹은 5:3:2 (데이터 충분한 경우)
0 댓글