1 minute read

Cross- Industry Standard Process for Data Mining 6단계로 구성, 일방향으로 구성되어있지 않고 단계간 피드백을 통하여 단계별 완성도를 높이게 구성

image

피드백 단계 : 1)업무이해와 데이터의 이해 2)데이터 준비와 모델링

위대한 실패: 평가 → 업무이해 (Evalueation → Business Understanding)

업무이해

  • 비즈니스 관점 프로젝트 목적과 요구사항을 이해하기 위한 단계
  • 도메인 지식을 데이터 분석을 위한 문제로 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
  • 업무목적파악 → 상황파악 → 데이터 마이닝 목표설정 → 프로젝트 계획수립

데이터 이해

  • 분석을 위한 데이터 수집 , 데이터 속성 이해를 위한 과정
  • 데이터 품질에 대한 문제점을 식별 및 숨겨져있는 인사이트를 발견하는 단계
  • 초기 데이터 수집 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

해당 CRISP-DM [데이터의 이해]단계는 KDD의 [데이터 셋 선택] 단계와 같은 단계이다.

데이터 준비

KDD의 Transformation == CRISP-DM 분석 방법론의 데이터 준비

  • 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터 셋을 편성하는 단계
  • 많은 시간이 소요될 수 있음
  • 분석용 데이터 셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅

모델링

  • 다양한 모델링 기법과 알고리즘을 선택
  • 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
  • 모델링 단계를 통해 찾아낸 모델은 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합(Overfitting) 등의 문제를 발견하고 대응 방안 마련
  • 데이터 분석 방법론, 머신러닝을 이용한 수행 모델을 만들거나 데이터를 분할하는 부분
  • 모델링 기법 선택, 모델링 작성, 모델평가

평가

  • 모델링 단계에서 얻은 모델이 프로젝트 목적에 부합하는지 평가
  • 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 과정
  • 분석 결과 평가, 모델링 적용성 평가

전개

  • 완성된 모델을 실제 업무에 적용하기 위한 계획 수립
  • 전개 계획 수립, 모니터링과 유지보수 계획 수리브 프로젝트 종료 보고서 작성 , 프로젝트 리뷰

Leave a comment