Posts List

[빅분기] PART1. 빅데이터 분석 기획 - 데이터 수집 및 저장 계획 - 데이터 수집 및 전환 (출제빈도 : 하)

  * 본문은 이기적에서 발행한 빅데이터분석기사 수험서를 공부하면서 작성된 글입니다. 시험 대비한 공부로, 암기가 필요한 부분을 요약/정리합니다.

PART1. 빅데이터 분석 기획

3. 데이터 수집 및 저장 계획

3-1. 데이터 수집 및 전환

1) 데이터 수집

여러 장소에 있는 데이터를 한 곳을 모으는 행위. 아래의 자료를 수집 수행.

** 용어집 / 원천 데이터 소유 기관 정보 / 원천 데이터 담당자 정보 / 데이터 명세서 / 
    데이터 수집 계획서 / 데이터 수집 기술 매뉴얼 / 업무 매뉴얼 / 서비스 흐름도 
    인프라 구성도 / SW아키텍처 개념도 / 수집 솔루션 매뉴얼 / 하둡 오퍼레이션 매뉴얼
    Biz. 및 원천 데이터 파악을 위한 Biz. 모델

[ 기초 데이터 수집 수행 절차 ]

[ 데이터 수집 시스템 구축 절차 ]

* 비즈니스 도메인과 원천 데이터

 ① 비즈니스 도메인 정보
  - Biz.모델 / Biz.용어집 / Biz. 프로세스로부터 관련 정보 습득
  - 도메인 전문가 인터뷰를 통해 데이터 종류 / 유형 / 특징 정보를 습득

 ② 원천 데이터 정보
  [ 수집 가능성 ] 수집 용이성 및 발생빈도 탐색, 전처리/후처리 비용 대략 산정 가능
  [ 수집 난이도 ] 데이터 존재 위치, 유형, 수집용량, 구축비용, 정제 과정의 복잡성 고려
  [ 수집 비용 ] 데이터 수집하기 위해 발생할 수 있는 획득 비용 산정
  [ 정확성 ] 적절한 데이터 항목 유무, 데이터 품질 확보 탐색
  [ 보안 ] 개인정보 포함 여부, 지식 재산권 존재 여부 판단 및 리스크 예방

* 내/외부 데이터

 - 내부 데이터 : 조직 내부에서 생성되는 데이터 / 실시간 수집 분석 필요 / 가공에 노력↓
 - 외부 데이터 : 수집 주기 결정 등 수집 관리 정책 필요 / 목표에 맞는 데이터 탐색/수집/변환 노력 필요
   * 2014년 이후 데이터 거래소 통한 데이터 유통 활성화

* 데이터 수집 기술 (★)


2) 데이터 유형 및 속성 파악

* 데이터 수집 세부 계획

 - 데이터 유형 / 위치 / 크기 / 보관방식 / 수집주기 / 확보비용 / 데이터 이관 절차 조사 및 세부계획서 작성

* 데이터 위치 및 비용

 - 수집 데이터의 원천에 따라 내/외부 데이터로 구분, 아래 비용 요소를 고려하여 비용을 산정
 ① 데이터 종류 : RDB, 파일, HTML
 ② 데이터 크기 및 보관 주기 : 데이터 수집, 저장크기, 수집데이터의 저장 주기
 ③ 데이터 수집 주기 : 실시간, 매시, 매일, 매주, 매달
 ④ 데이터 수집 방식 : 자동 수집, 수동 수집
 ⑤ 데이터 수집 기술 : ETL, FTP, 크롤러, DBtoDB
 ⑥ 데이터의 가치성 : 분석 수행을 위한 목적성 있는 대상 데이터

* 수집되는 데이터 형태

 ① HTML (Hypertext Markup Language)
  - 웹페이지 제작에 주로 사용되는 문서 형식. 텍스트 / 태그 / 스크립트로 구성
 ② XML (eXtensible Markup Language)
  - 데이터를 표현하기 위해 태그를 사용하는 언어. 엘리먼트 / 속성 / 처리명령 / 엔티티 / 주석 / CDATA섹션으로 구성
 ③ JSON (JavaScript Object Notation)
  - 자바스크립트를 위해 객채 형식으로 자료를 표현하는 문서 형식. 경량의 데이터 교환 방식

* 데이터 저장 방식

 ① 파일 시스템 : 일정한 규칙으로 파일에 이름을 명명하고 위치를 지정하는 체계
 ② 관계형 데이터베이스 : 데이터의 종류나 성격에 따라 행/열을 구성하는 정형화된 테이블로 구성된 집합체
 ③ 분산처리 데이터베이스 : 데이터의 집합이 여러 물리적 위치에 분산 배치되어 저장된 체계

* 데이터 적절성 검증

 ① 데이터 누락 : 누락/결측 여부 판단 및 누락 발생시 재수집
 ② 소스 데이터와 비교 : 수집↔소스 데이터와 사이즈, 개수를 비교 검증
 ③ 데이터 정확성 점검 : 유효하지 않은 데이터 존재여부 점검
 ④ 보안 사항 점검 : 개인정보 유무 등 보안 사항 점검
 ⑤ 저작권 점검 : 데이터의 저작권 등 법률적 검토 수행
 ⑥ 대량 트래픽 발생 여부 : 네트워크 및 시스템에 트래픽을 발생시키는 데이터 여부 검증

3) 데이터 변환

 - 데이터를 하나의 표현 형식에서 다른 형식으로 변형하는 과정
 - 비정형/반정형 데이터를 데이터 분석 용이성을 위해 정형화 하는 변환에 집중 필요
 - 수집 데이터 속성 구조를 정확히 파악해야 툴을 이용한 데이터 저장 용이
 - 데이터 변환 수행 자료
   ① 수집 계획서 ② 수집 솔루션 매뉴얼 ③ 데이터 변환 솔루션 
   ④ 하둡 오퍼레이션 매뉴얼 ⑤ 소프트웨어 아키텍처 개념도

* 데이터 변환 방식의 종류

* 데이터베이스 구조 설계

 - 수집 데이터를 바로 HDFS에 저장하거나 루비(ruby), 파이썬 등으로 변환가정을 거쳐 저장하기도 한다.
 - 데이터베이스 구조 설계 절차 4단계
 ① DBMS 구축 여부 결정
  - 정형 데이터일 경우 수집 솔루션을 거쳐 바로 데이터베이스에 저장
  - 그외 데이터일 경우 데이터베이스 종류 선택 및 데이터에 맞게 모델링
  - 저장 데이터베이스는 분석이 쉬운 RDBMS를 보편적으로 사용
 ② 저장 데이터베이스 결정 (상용/비상용/오픈소스)
 ③ DBMS 설치 
 ④ 테이블 구조 설계
  - 필요 데이터 속성 구체적으로 파악 후 테이블 구조 설계 및 테이블 생성

* 비정형/반정형 데이터의 변환

 - 데이터 전처리나 후처리 수행 전, 비정형/반정형 데이터를 구조적 형태로 전환 및 저장하는 과정
 ① 수집 데이터 속성 구조 파악
  : 수집할 데이터 파악(title, votes, body, tags, link 등) + 구조정의 + 적절한 변수명으로 구분
 ② 수집 절차에 대한 수행 코드 정의
  : 추출할 정보들의 위치와 정보 구조 파악 → 필요 데이터 추출
 ③ 데이터 저장 프로그램 작성
  : 생성된 데이터베이스 테이블에 수집 데이터를 저장하는 프로그램 작성
 ④ 데이터베이스에 저장

* 융합데이터베이스 설계

 - 데이터 유형 및 의미 파악후 활용 목적별 융합 DB 설계
 - 융합DB구성은 활용 업무 목적을 정확히 판단하는 것이 중요 + 쉽게 자동화 구축될 수 있도록 설계 필요
 - 융합DB설계 단계
  ① 요구사항 분석
   - 업무 활용 목적 및 방향 기반으로 어떤 데이터 속성들이 필요한지 파악 + 개인정보 등 민감정보 포함 여부 식별
  ② 데이터 표준화와 모델링
   - 표준코드 / 표준 용어 / 데이터 도메인(데이터값이 공통으로 갖는 형식과 값의 영역) 등을 정의한다.
   - 개념적 설계 : 엔티티(Entity)-애트리뷰트(Attribute)로 추출하여 엔티티간 관계를 ER다이어그램으로 그린다.
   - 논리적 설계 : 작성된 ER다이어그램 기반으로 매핑하여 관계형 스키마를 만들어 낸다.
   (엔티티&애트리뷰트 → ER다이어그램 → 관계형 스키마 예시)   



4) 데이터 비식별화

* 비식별화 개요

 - 개인정보를 식별할 수 있는 값들을 몇가지 규칙으로 대체하거나 가공하여 알아볼 수 없도록 하는 조치
 - 비식별 조치를 적정하게 한 정보는 개인정보가 아닌 것으로 추정 → 빅데이터 분석에 활용 가능
 - 식별자 (Identifier) : 개인 혹은 개인과 관련된 사물에 고유하게 부여된 값/이름
    ex. 주민번호 / 이름 / 주소 / 생일 / 전화번호 / 의료번호 / 계좌번호 / 자동차 번호 / 이메일 등
 - 속성자 (Attribute value) : 개인과 관련된 정보. 다른 정보와 쉽게 결합되는 경우 개인을 알아볼 수 있음.
    ex. 성별 / 나이 / 국적 / 고향 / 혈액형 / 신장 / 몸무게 / 병명 / 학교 / 성적 / 경력 / 인터넷 로그 등
 - 식별자, 속성자 모두 원칙적으로 삭제조치하며, 데이터 이용 목적상 필요시 비식별 조치 필수
   

* 비식별 조치 방법 ↓

 - 여러가지 기법을 단독 혹은 복합적으로 활용 (단, 가명처리는 단독 활용된 경우 비식별 조치로 보기 어려움)

  ① 가명처리 (Pseudonymization)
   - 장점 : 데이터의 변형 또는 변질 수준이 적음
   - 단점 : 대체 값 부여 시에도 식별 가능한 고유 속성이 계속 유지
   - 휴리스틱 가명화 : 몇 가지 규칙으로 대체하거나 사람 판단하에 자세한 정보를 숨기는 방법
     식별자 분포나 사전 분석을 하지 않고 모든 데이터를 동일한 방법으로 가공쉽게 이해&활용 가능
     활용가능한 대체 변수에 한계 있음. 규칙이 노출되는 취약점이 있어 주의 필요
     (홍길동 → 임꺽정, 서울 → 금성 과 같이 일반화된 이름 혹은 규칙으로 대체하여 표기)
   - 암호화(Encryption) : 일정한 규칙의 알고리즘을 적용하여 개인정보를 대체.
     통상적으로 복호화 키를 활용해 복화화 가능함으로 보안방안 필요 (일방향 암호화는 이론상 복호화 불가)
     (주민등록번호, 여권번호, 의료보험번호, 사용자ID, 신용카드번호 등에 적용)
   - 교환 방법(Swapping) : 기존 DB의 레코드를 사전에 정해진 외부 변수값과 연계하여 교환하는 방법
     (사용자ID, 요양기관번호, 기관번호, 나이, 성별, 신체정보, 소득, 휴대전화번호, 주소 등에 적용)

  ② 총계처리 (Aggregation)
   - 통계값 (전체 혹은 부분)을 적용하여 특정 개인을 식별할 수 없도록 함
   - 장점 : 민감한 수치 정보의 비식별 조치 가능. 통계분석용 데이터셋 작성에 유리
   - 단점 : 정밀 분석이 어려움. 집계 수량이 적을 경우 추론 가능
   - 부분(Micro) 총계 : 일부 레코드만 총계 처리. 다른 데이터 대비 오차 범위가 큰 항목을 통계값으로 변환
     (소득 분포 편차가 큰 40대 개인의 소득값을 평균값으로 대체하는 경우)
   - 라운딩(Rounding) : 값에 올림/내림/반올림 기준을 적용하여 집계 처리 하는 방법
     세세한 정보보다 전체 통계 정보가 필요한 경우 많이 사용
     (나이를 20/30/40대로 표기하거나, 소득 값을 일부 절삭하여 3백만원, 4백만원 등으로 집계)
   - 재배열(Rearrangement) : 기존 정보 값은 유지하면서 식별되지 않도록 재배열하는 방법
     개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정보가 개인과 연결되지 않도록
     (나이/소득을 개인별로 교환하여 재배치하여 비식별화 하여도 전체적인 통계 분석에는 영향이 없는 경우)

  ③ 데이터 삭제 (Data Reduction)
   - 이름/전화번호/주소/생년월일/사진/생체정보/기타 등록번호(계좌번호, 이메일)를 주요 대상으로 함
   - 장점 : 개인 식별요소의 전부 혹은 일부 삭제처리 가능
   - 단점 ; 분석의 다양성과 분석 결과의 유효성, 신뢰성이 저하
   - 식별자 (부분)삭제 : 원본 데이터에서 식별자를 단순 삭제하거나 일부만 삭제하는 방법
     남아 있는 정보로도 분석의 유효성을 가지면서 (타 정보와 결합해서도) 개인을 식별할 수 없어야 함. 
     (생년월일 yy-mm-dd 를 분석 목적에 따라 yy로도 충분하다면 mm-dd는 삭제)
   - 식별요소 전부삭제 : 잠재적 식별요소까지 전부 삭제하여 프라이버시 침해 위험 차단
     개인정보 유출 가능성을 최대한 줄일 수 있지만 데이터의 유용성이 낮아지는 문제 발생
     (유명인의 가족관계, 사건과 연간되어 있는 공개정보 등 잠재적 식별자 차단으로 연관 정보의 식별/결합 예방)

  ④ 데이터 범주화 (Data Suppression)
   - 그룹의 대푯값 또는 구간값으로 변환(범주화) 하여 개인 식별 방지
   - 장점 : 통계형 데이터 형식이므로 다양한 분석 및 가공 가능
   - 단점 ; 정확한 분석 결과 도출 어려움. 데이터 범위 구간이 좁혀질 경우 추론 가능성 있음.
   - 감추기 : 명확한 값을 숨기기 위해 평균 또는 범주값으로 변환.
     but, 특수한 성질을 지닌 단체 데이터의 평균이나 범주 값을 그 단체에 속한 개인의 정보 추론 가능
     (ex. 특정인물이 간염 환자 집단임을 표시하는 것은 특정인물이 간염 환자임을 공개하는 것과 동일) 
   - 랜덤 라운딩 : 수치 데이터를 임의의 수 기준으로 올림 또는 내림 하는 기범. 수치 데이터가 아니라도 적용가능.
     (나이/우편번호와 같은 수치 정보 식별자의 임의의 앞자리 수만 나타내는 방법)
   - 제어(Controlled) 라운딩 : 랜덤 라운딩 시, 행과 열의 합이 일치하지 않는 단점 해결하기 위해 일치시키는 방법
     컴퓨터 프로그램으로 구현이 어렵고, 복잡한 통계표에는 적용이 어려움. 현장에서 잘 사용하지 않음.
   - 범위 방법(Data Range) : 수치 데이터를 임의의 수 기준의 범우(range)로 설정하는 기법
     (3,000만원을 3,000~4,000만원 으로 대체 표기하는 경우)

  ⑤ 데이터 마스킹 (Data Masking)
   - 전부 또는 일부분을 대체 값(공백, 노이즈)로 변환하는 방법
   - 장점 : 식별 요소 제거가 가능하며, 원 데이터 구조의 변형이 적음
   - 단점 : 과도한 마스킹은 필요 목적에 활용이 어려우며, 마스킹 수준이 낮을 경우 추론이 가능함.
   - 임의 잡음 추가(Adding Random Noise) : 식별 정보에 임의의 숫자 등 잡음을 추가 하는 방법
     지정된 평균과 분산의 범위 내에서 잡음이 추가 됨으로 원 자료의 유용성을 해치지 않음
     but 잡음 값 자체는 데이터 값과 무관하기 때문에 유효한 데이터로 활용이 어려움
     (생년월일에 6개월의 잡음을 추가하여 기존 자료와 오차가 날 수 있게 하는 경우)
   - 공백(blank)과 대체(impute) : 특정 항목의 일부 또는 전부를 공백 또는 대체문자(*, -)로 변형하는 방법
     (생년월일을 19**-**-** 로 대체 표기하는 경우)

* 비식별화 조치 적정성 평가

 - 개인정보 보호책임자 책임 하에 외부전문가가 참여하는 「비식별 조치 적정성 평가단」구성
 - 적정성 평가시 최소한의 수단으로 k-익명성을 활용하며 필요시 추가적인 평가 모델(l-다양성, t-근접성) 활용
① k-익명성
 - 공개된 데이터에 대한 연결공격 등 취약점 방어를 위해 제안된 비식별화 조치 최소의 기준
 - 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보와 결합할 수 없도록 함.
 - 데이터 집합 일부를 수정하여 모든 레코드가 자기 자신과 동일한(구별되지 않는) k-1개 이상의 레코드를 가진다
 - 적정성 평가단은 적절한 k-값을 선택한 후 평가를 진행
 - 예를들어. 지역코드, 연력, 성별, 질병으로 구분된 원천데이터를 
   지역코드 뒷자리 마스킹, 연령 범주화 등의 방법으로 비식별화 통해 동질집합(Equivalent class)로 만들어
   공격자가 어떤 레코드가 공격 대상인지 알아낼 수 없게 하는 것
 - k-익명성은 다양성의 부족, 공격자의 배경지식을 고려하지 않는 특징으로 아래 취약점을 가짐.
   [동질성 공격(Homogeneity attack)] 데이터를 범주화 하더라도, 일부 정보들이 모두 같은 값을 
   가질 수 있기 때문에, 동일한 정보를 이용해 공격 대상의 정보를 알아내는 공격
   [배경지식에 의한 공격(Background knowledge attack)] 데이터에 대한 공격자의 배경지식을 활용한 공격
    ex. 여자는 전립선엽에 걸릴 수 없다는 배경지식이 있다면, 공격 대상이 여자인 경우 익명성 범위가 줄어듬

② l-다양성
 - k-익명성에 대한 동질성 공격 및 배경지식 공격을 방어하기 위한 모델
 - 주어진 데이터 집합에서 함께 비식별되는 레코드들은 동질 집합에서 최소 l개의 서로 다른 정보를 가지게 하는 것.
 - 이로 인해 다양성의 부족으로 인한 공격 방어 가능 + 배경지식 공격에도 일정수준 방어 가능
 ex. 지역코드와 연령을 비식별화하여 동질집합으로 만들 하면서(k-익명성) 질병이 3개 이상 포함되게 (l=3) 구성
    [쏠림 공격(Skewness attack)] 정보가 특정값에 쏠려있으면 l-다양성 모델의 보호가 어려움
     ex. 동질집합이 99개의 위암 양성과 1개의 위암음성 레코드로 구성되어있다면
         공격자는 공격대상이 99%확률로 위암 양성임을 알 수 있음.
    [유사성 공격(Similarity attack)] 비식별 조치된 레코드 정보가 비슷하다면 프라이버시 노출 가능
     ex. 동질집합의 병명이 모두 다르지만 위궤양/급성위염/만성위염 이라면 
         공격 대상의 질병이 '위'관련 이라는 사실을 알 수 있음.

③ t-근접성
 - l-다양성 모델의 쏠림, 유사성 공격을 보완하기 위한 모델로 값의 의미를 고려하는 모델
 - 동질집합에서 특정 정보의 분포와 전체집합에서의 분포가 t 이하의 차이를 보여야 함
   (= 동질집합에서 특정 정보의 분포가 전체집합에서의 분포와 비교했을때 특이하지 않도록 조치)
 - t수치가 0에 가까울수록 전체데이터와 특정데이터의 분포 유사성이 강해짐으로 익명성 방어가 더 강함
 - 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없어 정보 손실 문제도 크지 않음
 ex. 전체 데이터의 급여 분포가 30~110 일 때, 특정 데이터의 급여 분포가 30~50이라면 
     공격자는 근사적인 급여값 추론이 어려움

5) 데이터 품질 검증

* 데이터 품질 관리

 - Biz. 목표에 부합하는 데이터 분석을 위해 가치성 / 정확성 / 유용성 있는 데이터를 확보
    + 신뢰성 있는 데이터를 유지하는데 필요한 관리 활동
 - 분석 결과의 신뢰성 → 분석 품질은 데이터 품질이 좌우
 - 일원화된 프로세스 → 업무처리, 데이터 관리 효율화 필수
 - 데이터 활용도 향상 → 고품질 데이터 확보로 데이터 이용률 향상 가능
 - 양질의 데이터 확보 → 불필요한 데이터 제거 등 고품질 데이터 준비도 향상

* 정형데이터 5대 품질기준 및 진단 기법

  정형 데이터는 아래 5대 품질기준을 기반으로 데이터 프로파일링 기법을 통해 진단

  ① 완전성(Completeness) : 필수 항목 누락 여부 확인
   - 개별 완전성 : 필수항목 누락 여부 (ex. 고객아이디가 NULL일 수 없음)
   - 조건 완전성 : 조건에 따른 컬럼 값 항상 존재 (ex. 기업고객은 사업자등록번호 NULL일 수 없음)

  ② 유일성(Uniqueness) : 데이터 항목은 유일해야하며 중복되어서는 안됨
   - 단독 유일성 : 컬럼은 유일한 값 (ex. 고객 이메일 주소는 중복될 수 없음)
   - 조건 유일성 : 업무 조건에 따라 컬럼 값은 유일 (ex. 타 강의와 동일한 강의일, 강의실, 강사 동일할 수 없음)

  ③ 유효성(Validity) : 데이터 항목은 정해진 유효범위 및 도메인 충족 필요
   - 범위 유효성 : 유효한 데이터 범위 (ex. -360~360 외의 값을 가질 수 없음)
   - 날짜 유효성 : 유효한 날짜값 (ex. 9999-12-31, 2008-02-31)
   - 형식 유효성 : 정해진 형식 준수 (ex. 주민등록번호는 000000-0000000 형태)
 
  ④ 일관성(Consistency) : 데이터가 지켜야 할 구조, 값, 형태가 일관되고 정의/일치
   - 기준코드 일관성 : 데이터가 지켜야 할 구조, 값 일관되었는지 (ex. 직업코드는 등록된 값만 활용)
   - 참조 무결성 : 컬럼값이 참조 관계인 경우 무결성 유지 (ex. 대출원장번호는 대출상세내역에 존재해야하)
   - 데이터 흐름 일관성 : 연관된 데이터 일치 여부 (ex. 운영계의 가입 고객 수 = DW의 고객 수)
   - 칼럼 일관성 ; 중복 칼럼 활용 시 칼럼 값 일치 (ex. 주문DB 주문번호, 고객번호 = 배송DB 주문번호, 고객번호)

 정확성(Accuracy) : 실세계에 존재하는 객체의 표현값이 정확히 반영 필요
   - 선후 관계 정확성 : 복수 칼럼값이 선후 관계인 경우 규칙 준수 여부 (ex. 시작일 < 종료일)
   - 계산/집계 정확성 : 다수 칼럼의 계산된 칼럼값의 정확성 (ex. 월 매출액 = 일 매출액의 합)
   - 최신성 : 정보의 발생/수집/갱신주기 유지 (ex. 고객의 현재값은 고객변경이력 마지막 ROW와 일치)
   - 업무규칙 정확성 : 업무적으로 복잡하계 연관된 컬럼은 업무 규칙과 일치 
       (ex. 지급여부 Y이면 지급일자는 신청일보다 이전시점이어야 하고, NULL이 아니어야함)

* 비정형데이터 품질기준 및 진단 기법(w/ 동영상 데이터 사례)

  비정형데이터는 아래 품질기준을 기반, 품질 세부 기준별 체크리스트 작성 / 진단

 ① 기능성(Functionality) - 적절성 / 정확성 / 상호 운용성 / 기능 순응성
    : 특정 조건에서 사용될 때, 명시된 요구와 내재된 요구를 만족하는 기능을 제공하는 정도
    (ex. 자막은 맞춤법 표기에 따라 작성되었는가? 압축 코덱은 표준을 준수하는가? 사운드와 자막 일치는?)

 ② 신뢰성(Reliability) - 성숙성 / 신뢰 순응성
    : 규정된 조건에서 사용될 때, 규정된 신뢰 수준을 유지하거나 오류를 방지할 수 있는 정도
    (ex. 결함 발생 횟수는? 신뢰성 관련 항목에 대한 표준 지침은 있는지?)

 ③ 사용성(Usability) - 이해성 / 친밀성 / 사용 순응성
    : 규정된 조건에서 사용될 때, 사용자에 의해 이해되고 선호될 수 있게 하는 정도
    (ex. 영상과 자막은 선명한가? 영상 포맷에 대한 표준 준수 여부? 표준 지침은 있는가?)

 ④ 효율성(Efficiency) - 시간 효율성 / 자원 효율성 / 효율 순응성
    : 규정된 조건에서 사용될 때, 사용되는 자원의 양에 따라 요구된 성능을 제공하는 정도
    (ex. 선택한 동영상이 기준 시간 내에 로딩 되는가? 효율성 표준 지침이 있는가?)

 ⑤ 이식성(Portability) - 적응성 / 공존성 / 이식 순응성
    : 다양한 환경과 상황에서 실행될 가능성
    (ex. 운영 환경 및 플레이어 호환 되는가? 타 SW 성능에 영향을 미치는가? 이식성 표준 지침이 있는가?)

* 데이터 품질 검증 수행.

 - 품질 기준 및 진단기법을 활용, 품질 보증 체계 수립 → 품질 점검 → 품질검증 결과서 작성
 - 품질 점검 수행 시 오류 수정이 용이하지 않을 경우 재수집 ↑

댓글 쓰기

0 댓글