우리가 알고 있듯이 지도학습 알고리즘은 크게 회귀 알고리즘과 분류 알고리즘으로 분류할 수 있습니다. 회귀 알고리즘에서는 연속 값에 대한 출력을 예측했지만 범주형 값을 예측하려면 분류 알고리즘이 필요합니다.
분류 알고리즘이란 무엇입니까?
분류 알고리즘은 훈련 데이터를 기반으로 새로운 관찰의 범주를 식별하는 데 사용되는 지도 학습 기술입니다. 분류에서 프로그램은 주어진 데이터 세트 또는 관찰로부터 학습한 다음 새로운 관찰을 여러 클래스 또는 그룹으로 분류합니다. 와 같은, 예 또는 아니요, 0 또는 1, 스팸 여부, 스팸 아님, 고양이 또는 개, 등. 클래스는 대상/레이블 또는 범주로 호출될 수 있습니다.
조인 SQL에서 업데이트
회귀와 달리 분류의 출력 변수는 '녹색 또는 파란색', '과일 또는 동물' 등과 같은 값이 아닌 카테고리입니다. 분류 알고리즘은 지도 학습 기술이므로 레이블이 지정된 입력 데이터를 사용합니다. 해당 출력과 함께 입력이 포함되어 있음을 의미합니다.
분류 알고리즘에서는 이산 출력 함수(y)가 입력 변수(x)에 매핑됩니다.
y=f(x), where y = categorical output
ML 분류 알고리즘의 가장 좋은 예는 다음과 같습니다. 이메일 스팸 탐지기 .
분류 알고리즘의 주요 목표는 주어진 데이터 세트의 범주를 식별하는 것이며 이러한 알고리즘은 주로 범주형 데이터의 출력을 예측하는 데 사용됩니다.
분류 알고리즘은 아래 다이어그램을 사용하여 더 잘 이해할 수 있습니다. 아래 다이어그램에는 클래스 A와 클래스 B라는 두 가지 클래스가 있습니다. 이들 클래스는 서로 유사하면서도 다른 클래스와는 다른 특징을 가지고 있습니다.
데이터 세트에 대한 분류를 구현하는 알고리즘을 분류자라고 합니다. 분류에는 두 가지 유형이 있습니다.
예: 예 또는 아니오, 남성 또는 여성, 스팸 또는 스팸 아님, 고양이 또는 개 등
예: 작물의 종류 분류, 음악의 종류 분류.
분류 문제의 학습자:
분류 문제에는 두 가지 유형의 학습자가 있습니다.
예: K-NN 알고리즘, 사례 기반 추론
ML 분류 알고리즘의 유형:
분류 알고리즘은 주로 두 가지 범주로 더 나눌 수 있습니다.
- 로지스틱 회귀
- 서포트 벡터 머신
- K-최근접이웃
- 커널 SVM
- 나이브 베이즈
- 의사결정나무 분류
- 랜덤 포레스트 분류
참고: 위의 알고리즘은 이후 장에서 배우게 됩니다.
분류 모델 평가:
모델이 완성되면 성능을 평가해야 합니다. 분류 또는 회귀 모델입니다. 따라서 분류 모델을 평가하기 위해 다음과 같은 방법이 있습니다.
1. 로그 손실 또는 교차 엔트로피 손실:
- 출력이 0과 1 사이의 확률 값인 분류기의 성능을 평가하는 데 사용됩니다.
- 좋은 이진 분류 모델의 경우 로그 손실 값은 0에 가까워야 합니다.
- 예측값이 실제값에서 벗어나면 로그손실값이 증가합니다.
- 로그 손실이 낮을수록 모델의 정확도가 높아집니다.
- 이진 분류의 경우 교차 엔트로피는 다음과 같이 계산할 수 있습니다.
?(ylog(p)+(1?y)log(1?p))
여기서 y= 실제 출력, p= 예측 출력입니다.
2. 혼동 매트릭스:
- 혼동 행렬은 출력으로 행렬/테이블을 제공하고 모델의 성능을 설명합니다.
- 오류 매트릭스라고도 합니다.
- 매트릭스는 예측 결과를 요약된 형태로 구성하며, 정확한 예측과 잘못된 예측의 총 개수를 나타냅니다. 매트릭스는 아래 표와 같습니다.
실제 양성 | 실제 부정적인 | |
---|---|---|
양성 예측 | 참양성 | 거짓 긍정 |
예측된 부정적 | 거짓 부정 | 참음성 |
3. AUC-ROC 곡선:
np.clip
- ROC 곡선은 다음을 의미합니다. 수신기 작동 특성 곡선 AUC는 곡선 아래 면적 .
- 다양한 임계값에서 분류 모델의 성능을 보여주는 그래프입니다.
- 다중 클래스 분류 모델의 성능을 시각화하기 위해 AUC-ROC 곡선을 사용합니다.
- ROC 곡선은 TPR과 FPR로 구성되며, Y축은 TPR(True Positive Rate), X축은 FPR(False Positive Rate)입니다.
분류 알고리즘의 사용 사례
분류 알고리즘은 다양한 장소에서 사용될 수 있습니다. 다음은 분류 알고리즘의 널리 사용되는 몇 가지 사용 사례입니다.
- 이메일 스팸 감지
- 음성 인식
- 암종양세포의 동정.
- 약물 분류
- 생체 인식 등