CRISP-DM은 데이터 마이닝을 위한 산업 간 표준 프로세스를 나타냅니다. CRISP-DM 방법론은 데이터 마이닝 프로젝트 계획에 대한 구조화된 접근 방식을 제공합니다. 이는 강력하고 잘 입증된 방법론입니다. 우리는 이에 대해 어떠한 소유권도 주장하지 않습니다. 우리는 그것을 발명하지 않았습니다. 우리는 비즈니스 문제를 해결하기 위해 분석을 사용할 때 강력한 실용성, 유연성 및 유용성을 변환기로 삼고 있습니다. 이는 거의 모든 고객 미팅을 관통하는 황금빛 실입니다.
이 모델은 이상적인 일련의 사건입니다. 실제로 많은 작업이 다른 순서로 수행될 수 있으며 이전 작업으로 돌아가서 특정 작업을 반복해야 하는 경우가 많습니다. 모델은 데이터 마이닝 프로세스를 통해 가능한 모든 경로를 캡처하려고 시도하지 않습니다.
CRISP는 어떻게 도움이 되나요?
CRISP DM은 로드맵을 제공하고 모범 사례를 제공하며 데이터 마이닝 사용에 대한 더 좋고 빠른 결과를 위한 구조를 제공하므로 비즈니스가 데이터 마이닝 프로젝트를 계획하고 수행하는 동안 이를 따르는 데 도움이 됩니다.
CRISP-DM의 단계
CRISP-DM은 데이터 마이닝 수명주기에 대한 개요를 프로세스 모델로 제공합니다. 수명주기 모델은 6개 단계로 구성되며, 화살표는 단계 간 가장 중요하고 빈번한 종속성을 나타냅니다. 단계의 순서는 엄격하지 않습니다. 그리고 대부분의 프로젝트는 필요에 따라 단계 사이를 왔다 갔다 합니다. CRISP-DM 모델은 유연하며 쉽게 사용자 정의할 수 있습니다.
예를 들어, 조직에서 자금 세탁을 탐지하는 것을 목표로 하는 경우 특정 모델링 목표 없이 대량의 데이터를 조사하게 될 가능성이 높습니다. 모델링 대신 데이터 탐색 및 시각화에 중점을 두어 재무 데이터에서 의심스러운 패턴을 찾아냅니다. CRISP-DM을 사용하면 필요에 맞는 데이터 마이닝 모델을 만들 수 있습니다.
여기에는 프로젝트의 일반적인 단계에 대한 설명, 각 단계와 관련된 작업, 이러한 작업 간의 관계에 대한 설명이 포함됩니다.
1단계: 비즈니스 이해
CRISP-DM 프로세스의 첫 번째 단계는 비즈니스 관점에서 달성하려는 목표를 이해하는 것입니다. 귀하의 조직에는 적절하게 균형을 이루어야 하는 상충되는 목표와 제약이 있을 수 있습니다. 이 프로세스 단계는 프로젝트 결과에 영향을 미치는 중요한 요소를 찾아내는 것을 목표로 합니다. 이 단계를 무시하면 잘못된 질문에 대한 올바른 답을 찾기 위해 많은 노력을 기울일 수 있습니다.
프로젝트에서 원하는 결과는 무엇입니까?
현재 상황을 평가해 보세요
Java에 설정된 경로
여기에는 데이터 분석 목표와 프로젝트 계획을 결정할 때 고려해야 할 리소스, 제약 조건, 가정 및 기타 요소에 대한 보다 자세한 사실 조사가 포함됩니다.
- 인력(비즈니스 전문가, 데이터 전문가, 기술 지원, 데이터 마이닝 전문가)
- 데이터(고정 추출, 라이브, 창고 또는 운영 데이터에 대한 액세스)
- 컴퓨팅 리소스(하드웨어 플랫폼)
- 소프트웨어(데이터 마이닝 도구, 기타 관련 소프트웨어)
- 관련 비즈니스 용어의 용어집은 프로젝트에 사용할 수 있는 비즈니스 이해의 일부를 구성합니다. 이 용어집을 구성하는 것은 유용한 '지식 추출'이자 교육 활동입니다.
- 데이터 마이닝 용어집은 비즈니스 문제와 관련된 예와 함께 설명됩니다.
데이터 마이닝 목표 결정
비즈니스 목표는 비즈니스 용어로 목표를 나타냅니다. 데이터 마이닝 목표는 기술적인 용어로 프로젝트 목표를 명시합니다. 예를 들어 비즈니스 목표는 기존 고객에 대한 카탈로그 판매 증대일 수 있습니다. 데이터 마이닝 목표는 지난 3년 동안의 구매 내역, 인구통계학적 정보(나이, 급여, 도시 등) 및 품목 가격을 바탕으로 고객이 구매할 위젯 수를 예측하는 것일 수 있습니다.
프로듀스 프로젝트 계획
데이터 마이닝 목표와 비즈니스 목표를 달성하기 위한 계획을 설명합니다. 계획에는 도구 및 기술의 초기 선택을 포함하여 프로젝트의 나머지 기간 동안 수행할 단계를 지정해야 합니다.
각 타이프스크립트마다
1. 프로젝트 계획: 기간, 필요한 리소스, 입력, 출력 및 종속성과 함께 프로젝트에서 실행될 단계를 나열합니다. 가능하다면 데이터 마이닝 프로세스에서 대규모 반복(예: 모델링 및 평가 단계의 반복)을 명시적으로 시도하십시오.
프로젝트 계획의 일부로 일정과 위험 간의 종속성을 분석하는 것이 중요합니다. 이러한 분석 결과를 프로젝트 계획에 명시적으로 표시하십시오. 위험이 드러난 경우 이상적으로는 조치 및 권장 사항을 포함하십시오. 평가 단계에서 어떤 평가 전략을 사용할지 결정합니다.
프로젝트 계획은 동적 문서가 됩니다. 각 단계가 끝나면 진행 상황과 성과를 검토하고 이에 따라 프로젝트 계획을 업데이트하게 됩니다. 이러한 업데이트에 대한 특정 검토 사항은 프로젝트 계획의 일부가 되어야 합니다.
2. 도구 및 기술의 초기 평가: 첫 번째 단계가 끝나면 도구와 기술에 대한 초기 평가를 수행해야 합니다. 예를 들어 프로세스의 다양한 단계에 대해 다양한 방법을 지원하는 데이터 마이닝 도구를 선택합니다. 도구와 기술의 선택이 전체 프로젝트에 영향을 미칠 수 있으므로 프로세스 초기에 도구와 기술을 평가하는 것이 중요합니다.
2단계: 데이터 이해
CRISP-DM 프로세스의 두 번째 단계에서는 프로젝트 리소스에 나열된 데이터를 획득해야 합니다. 이 초기 수집에는 데이터 이해에 필요한 경우 데이터 로드가 포함됩니다. 예를 들어, 데이터 이해를 위해 특정 도구를 사용하는 경우 이 도구에 데이터를 로드하는 것이 합리적입니다. 여러 데이터 소스를 확보하는 경우 이를 통합할 방법과 시기를 고려해야 합니다.
데이터 설명
획득한 데이터의 '총' 또는 '표면' 속성을 검사하고 결과를 보고합니다.
데이터 탐색
이 단계에서는 쿼리, 데이터 시각화 및 보고 기술을 사용하여 데이터 마이닝 질문을 해결하게 됩니다. 여기에는 다음이 포함될 수 있습니다.
- 주요 속성의 분포
- 쌍 또는 소수의 속성 간의 관계
- 단순 집계 결과
- 중요한 하위 집단의 속성
- 간단한 통계 분석
이러한 분석은 데이터 마이닝 목표를 직접적으로 해결할 수 있습니다. 이는 데이터 설명 및 품질 보고서에 기여하거나 개선하고 추가 분석에 필요한 변환 및 기타 데이터 준비 단계에 반영될 수 있습니다.
데이터 품질 확인
다음과 같은 질문에 답하면서 데이터 품질을 검사합니다.
- 데이터가 완전합니까, 아니면 필요한 모든 사례를 포괄합니까?
- 정확합니까, 아니면 오류가 포함되어 있습니까? 오류가 있는 경우 그 오류는 얼마나 흔합니까?
- 데이터에 누락된 값이 있습니까? 그렇다면 이러한 현상은 어떻게 나타나고, 어디서 발생하며, 얼마나 흔합니까?
데이터 품질 보고서
데이터 품질 검증 결과를 나열합니다. 품질 문제가 있는 경우 가능한 해결책을 제안하십시오. 데이터 품질 문제에 대한 해결책은 일반적으로 데이터와 비즈니스 지식에 크게 좌우됩니다.
3단계: 데이터 준비
이 프로젝트 단계에서는 분석에 사용할 데이터를 결정합니다. 이 결정을 내리는 데 사용할 수 있는 기준에는 데이터 마이닝 목표에 대한 데이터의 관련성, 데이터 품질 및 데이터 볼륨이나 데이터 유형에 대한 제한과 같은 기술적 제약이 포함됩니다.
데이터 정리
이 작업에는 선택한 분석 기술에 필요한 수준으로 데이터 품질을 높이는 작업이 포함됩니다. 여기에는 데이터의 깨끗한 하위 집합 선택, 적절한 기본값 삽입 또는 모델링을 통한 누락 데이터 추정과 같은 보다 야심찬 기술이 포함될 수 있습니다.
필수 데이터 구축
자바 해시맵이 뭐야?
이 작업에는 파생된 속성, 완전히 새로운 레코드 또는 기존 속성에 대한 변환된 값 생성과 같은 건설적인 데이터 준비 작업이 포함됩니다.
데이터 통합
이러한 방법은 여러 데이터베이스, 테이블 또는 레코드의 정보를 결합하여 새로운 레코드나 값을 생성합니다.
배열과 배열리스트의 차이점
4단계: 모델링
모델링 기술 선택: 첫 번째 단계에서는 사용할 기본 모델링 기술을 선택합니다. 비즈니스 이해 단계에서 이미 도구를 선택했을 수도 있지만 이 단계에서는 특정 모델링 기술을 선택하게 됩니다. C5.0을 사용한 의사결정 트리 구축 또는 역전파를 통한 신경망 생성. 여러 기술이 적용되는 경우 각 기술에 대해 별도로 이 작업을 수행하십시오.
테스트 설계 생성
모델을 구축하기 전에 모델의 품질과 유효성을 테스트하기 위한 절차나 메커니즘을 생성해야 합니다. 예를 들어 분류와 같은 지도 데이터 마이닝 작업에서는 오류율을 데이터 마이닝 모델의 품질 측정값으로 사용하는 것이 일반적입니다. 따라서 일반적으로 데이터 세트를 학습 세트와 테스트 세트로 분리하고, 학습 세트에 모델을 구축하고, 별도의 테스트 세트에서 품질을 추정합니다.
모델 구축
준비된 데이터 세트에서 모델링 도구를 실행하여 하나 이상의 모델을 만듭니다.
모델 평가
도메인 지식, 데이터 마이닝 성공 기준 및 원하는 테스트 설계에 따라 모델을 해석합니다. 모델링 및 검색 기술 적용의 성공 여부를 판단한 다음 나중에 비즈니스 분석가 및 도메인 전문가에게 연락하여 비즈니스 맥락에서 데이터 마이닝 결과를 논의합니다. 이 작업에서는 모델만 고려하는 반면, 평가 단계에서는 프로젝트 중에 생성된 다른 모든 결과도 고려합니다.
이 단계에서는 모델의 순위를 지정하고 평가 기준에 따라 평가해야 합니다. 여기에서 가능한 한 비즈니스 목표와 성공 기준을 고려해야 합니다. 대부분의 데이터 마이닝 프로젝트에서는 단일 기술이 두 번 이상 적용되며, 데이터 마이닝 결과는 여러 가지 기술로 생성됩니다.
5단계: 평가
결과 평가: 이전 평가 단계에서는 모델의 정확성 및 일반성과 같은 요소를 다루었습니다. 이 단계에서는 모델이 비즈니스 목표를 어느 정도 충족하는지 평가하고 이 모델이 부족한 비즈니스 이유가 있는지 확인합니다. 또 다른 옵션은 시간과 예산 제약이 허용되는 경우 실제 애플리케이션의 테스트 애플리케이션에서 모델을 테스트하는 것입니다. 평가 단계에는 생성한 다른 데이터 마이닝 결과를 평가하는 것도 포함됩니다. 데이터 마이닝 결과에는 원래 비즈니스 목표와 반드시 관련이 있는 모델과 원래 비즈니스 목표와 반드시 관련되지는 않지만 향후 방향에 대한 추가 과제, 정보 또는 힌트를 밝힐 수 있는 기타 모든 결과가 포함됩니다.
검토 과정
이 시점에서 결과 모델은 만족스럽고 비즈니스 요구 사항을 충족하는 것으로 보입니다. 이제 간과된 중요한 요소나 작업이 있는지 확인하기 위해 데이터 마이닝 작업을 보다 철저하게 검토하는 것이 적절합니다. 이 검토에서는 품질 보증 문제도 다루고 있습니다. 예를 들어, 모델을 올바르게 구축했습니까? 사용이 허용되고 향후 분석에 사용할 수 있는 속성만 사용했습니까?
다음 단계 결정
이제 평가 결과와 프로세스 검토에 따라 진행 방법을 결정합니다. 이 프로젝트를 마치고 배포를 진행하거나, 추가 반복을 시작하거나, 새로운 데이터 마이닝 프로젝트를 설정하시겠습니까? 또한 결정에 영향을 미칠 수 있는 남은 자원과 예산을 조사해야 합니다.
6단계: 배포
배포 계획: 배포 단계에서는 평가 결과를 바탕으로 배포 전략을 결정합니다. 관련 모델을 생성하기 위한 일반 절차가 식별된 경우 나중에 배포할 수 있도록 이 절차가 여기에 문서화되어 있습니다. 배포는 프로젝트 성공에 매우 중요하므로 비즈니스 이해 단계에서 배포 방법과 수단을 고려하는 것이 좋습니다. 이것이 바로 예측 분석이 비즈니스 운영 측면을 개선하는 데 도움이 되는 부분입니다.
계획 모니터링 및 유지 관리
데이터 마이닝 결과가 일상적인 비즈니스 및 환경의 일부가 되는 경우 모니터링 및 유지 관리는 중요한 문제입니다. 유지 관리 전략을 신중하게 준비하면 데이터 마이닝 결과가 불필요하게 오랫동안 잘못 사용되는 것을 방지하는 데 도움이 됩니다. 프로젝트에는 데이터 마이닝 결과의 배포를 모니터링하기 위한 자세한 모니터링 프로세스 계획이 필요합니다. 이 계획에서는 특정 배포 유형을 고려합니다.
최종 보고서 작성
프로젝트가 끝나면 최종 보고서를 작성하게 됩니다. 배포 계획에 따라 이 보고서는 프로젝트와 그 경험에 대한 요약일 수도 있고(아직 진행 중인 활동으로 문서화되지 않은 경우) 데이터 마이닝 결과에 대한 최종적이고 포괄적인 프레젠테이션일 수도 있습니다.
프로젝트 검토
첫 번째 문자 제거 엑셀
무엇이 옳고 그른지, 잘한 점은 무엇인지, 개선이 필요한 점은 무엇인지 평가해 보세요.