[ADsP] CRISP-DM 분석 방법론
Cross- Industry Standard Process for Data Mining 6단계로 구성, 일방향으로 구성되어있지 않고 단계간 피드백을 통하여 단계별 완성도를 높이게 구성
피드백 단계 : 1)업무이해와 데이터의 이해 2)데이터 준비와 모델링
위대한 실패: 평가 → 업무이해 (Evalueation → Business Understanding)
업무이해
- 비즈니스 관점 프로젝트 목적과 요구사항을 이해하기 위한 단계
- 도메인 지식을 데이터 분석을 위한 문제로 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
- 업무목적파악 → 상황파악 → 데이터 마이닝 목표설정 → 프로젝트 계획수립
데이터 이해
- 분석을 위한 데이터 수집 , 데이터 속성 이해를 위한 과정
- 데이터 품질에 대한 문제점을 식별 및 숨겨져있는 인사이트를 발견하는 단계
- 초기 데이터 수집 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
해당 CRISP-DM [데이터의 이해]단계는 KDD의 [데이터 셋 선택] 단계와 같은 단계이다.
데이터 준비
KDD의 Transformation == CRISP-DM 분석 방법론의 데이터 준비
- 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터 셋을 편성하는 단계
- 많은 시간이 소요될 수 있음
- 분석용 데이터 셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅
모델링
- 다양한 모델링 기법과 알고리즘을 선택
- 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
- 모델링 단계를 통해 찾아낸 모델은 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합(Overfitting) 등의 문제를 발견하고 대응 방안 마련
- 데이터 분석 방법론, 머신러닝을 이용한 수행 모델을 만들거나 데이터를 분할하는 부분
- 모델링 기법 선택, 모델링 작성, 모델평가
평가
- 모델링 단계에서 얻은 모델이 프로젝트 목적에 부합하는지 평가
- 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 과정
- 분석 결과 평가, 모델링 적용성 평가
전개
- 완성된 모델을 실제 업무에 적용하기 위한 계획 수립
- 전개 계획 수립, 모니터링과 유지보수 계획 수리브 프로젝트 종료 보고서 작성 , 프로젝트 리뷰
Leave a comment