기계 학습의 편향과 분산

머신러닝은 인공지능(Artificial Intelligence)의 한 분야로, 기계가 데이터를 분석하고 예측할 수 있도록 해줍니다. 그러나 기계 학습 모델이 정확하지 않으면 예측 오류가 발생할 수 있으며 이러한 예측 오류는 일반적으로 편향 및 분산으로 알려져 있습니다. 기계 학습에서는 모델 예측과 실제 예측 사이에 항상 약간의 차이가 있기 때문에 이러한 오류가 항상 존재합니다. ML/데이터 과학 분석가의 주요 목표는 보다 정확한 결과를 얻기 위해 이러한 오류를 줄이는 것입니다. 이번 주제에서는 편향과 분산, 편향-분산 트레이드오프, 과소적합, 과적합에 대해 논의하겠습니다. 하지만 시작하기 전에 먼저 머신러닝의 오류가 무엇인지부터 이해해 볼까요?

머신러닝에 오류가 있나요?

기계 학습에서 오류는 알고리즘이 이전에 알려지지 않은 데이터 세트에 대해 얼마나 정확하게 예측할 수 있는지를 측정한 것입니다. 이러한 오류를 기반으로 특정 데이터 세트에서 가장 잘 수행할 수 있는 기계 학습 모델이 선택됩니다. 기계 학습에는 주로 두 가지 유형의 오류가 있습니다.

어떤 알고리즘이 사용되었는지에 관계없이. 이러한 오류의 원인은 값을 줄일 수 없는 알 수 없는 변수입니다.

편견이란 무엇입니까?

일반적으로 기계 학습 모델은 데이터를 분석하고 그 안에서 패턴을 찾아 예측합니다. 훈련하는 동안 모델은 데이터 세트에서 이러한 패턴을 학습하고 예측을 위해 테스트 데이터에 적용합니다. 예측을 하는 동안 모델에 의한 예측값과 실제값/예상값 사이에 차이가 발생합니다. , 이 차이는 편향 오류 또는 편향으로 인한 오류로 알려져 있습니다. . 이는 선형 회귀와 같은 기계 학습 알고리즘이 데이터 포인트 간의 실제 관계를 포착할 수 없는 것으로 정의될 수 있습니다. 편향은 모델의 가정에서 발생하기 때문에 각 알고리즘은 어느 정도의 편향으로 시작됩니다. 이는 목표 함수를 학습하기 쉽게 만듭니다. 모델에는 다음 중 하나가 있습니다.

확장 파일 자바

높은 편향 모델은 새로운 데이터에서도 좋은 성능을 발휘하지 못합니다.

일반적으로 선형 알고리즘은 학습 속도가 빠르기 때문에 편향이 높습니다. 알고리즘이 단순할수록 편향이 도입될 가능성이 높아집니다. 비선형 알고리즘은 편향이 낮은 경우가 많습니다.

편향이 낮은 기계 학습 알고리즘의 몇 가지 예 결정 트리, k-최근접 이웃 및 지원 벡터 머신입니다. . 동시에, 높은 편향을 갖는 알고리즘은 다음과 같습니다. 선형 회귀, 선형 판별 분석 및 로지스틱 회귀.

높은 편견을 줄이는 방법:

높은 편향은 주로 매우 단순한 모델로 인해 발생합니다. 다음은 높은 편향을 줄이는 몇 가지 방법입니다.

모델이 과소적합되면 입력 특성을 늘립니다.
정규화 기간을 줄입니다.
일부 다항식 기능을 포함하는 등 더 복잡한 모델을 사용합니다.

분산 오류란 무엇입니까?

분산은 서로 다른 훈련 데이터가 사용된 경우 예측의 변동량을 지정합니다. 간단히 말해서, 분산은 확률 변수가 예상 값과 얼마나 다른지 알려줍니다. 이상적으로는 모델이 훈련 데이터세트마다 너무 많이 달라서는 안 됩니다. 즉, 알고리즘은 입력 변수와 출력 변수 간의 숨겨진 매핑을 잘 이해해야 합니다. 분산 오류는 다음 중 하나입니다. 낮은 분산 또는 높은 분산.

낮은 분산 이는 훈련 데이터 세트의 변화에 따라 목표 함수 예측에 작은 변화가 있음을 의미합니다. 동시에, 높은 분산 훈련 데이터 세트의 변화에 따른 목표 함수 예측의 큰 변화를 보여줍니다.

높은 분산을 보여주는 모델은 많은 것을 학습하고 훈련 데이터 세트로 잘 수행되지만, 보이지 않는 데이터 세트로는 잘 일반화되지 않습니다. 결과적으로 이러한 모델은 학습 데이터 세트에서는 좋은 결과를 제공하지만 테스트 데이터 세트에서는 높은 오류율을 나타냅니다.

분산이 높으면 모델이 데이터 세트에서 너무 많은 것을 학습하므로 모델이 과적합됩니다. 분산이 높은 모델에는 다음과 같은 문제가 있습니다.

분산이 높은 모델은 과적합을 초래합니다.
모델 복잡성을 높입니다.

일반적으로 비선형 알고리즘은 모델에 맞게 유연성이 뛰어나고 분산이 높습니다.

데이터베이스에 연결 자바

분산이 낮은 기계 학습 알고리즘의 몇 가지 예는 다음과 같습니다. 선형 회귀, 로지스틱 회귀 및 선형 판별 분석 . 동시에 분산이 높은 알고리즘은 다음과 같습니다. 의사결정 트리, 지원 벡터 머신(Support Vector Machine), K-최근접 이웃.

높은 변동성을 줄이는 방법:

모델이 과적합되면 입력 특성이나 매개변수 수를 줄이세요.
너무 복잡한 모델을 사용하지 마십시오.
훈련 데이터를 늘립니다.
정규화 기간을 늘립니다.

편향-분산의 다양한 조합

편향과 분산에는 네 가지 가능한 조합이 있으며 아래 다이어그램에 표시되어 있습니다.

과적합

과소적합

높은 분산 또는 높은 편향을 식별하는 방법은 무엇입니까?

모델에 다음이 포함된 경우 높은 분산을 식별할 수 있습니다.

SQL의 여러 테이블에서 선택

훈련 오류는 낮고 테스트 오류는 높습니다.

모델에 다음이 있는 경우 높은 바이어스를 식별할 수 있습니다.

높은 훈련 오류와 테스트 오류는 훈련 오류와 거의 유사합니다.

편향-분산 절충

기계 학습 모델을 구축하는 동안 모델의 과적합과 과소적합을 방지하기 위해 편향과 분산을 관리하는 것이 정말 중요합니다. 모델이 더 적은 수의 매개변수로 매우 단순하다면 분산은 낮고 편향은 높을 수 있습니다. 반면, 모델에 매개변수 수가 많으면 분산이 높고 편향이 낮습니다. 따라서 편향오차와 분산오차 사이의 균형이 필요하며, 이러한 편향오차와 분산오차 사이의 균형을 다음과 같이 부릅니다. 편향-분산 트레이드오프.

모델을 정확하게 예측하려면 알고리즘에 낮은 분산과 낮은 편향이 필요합니다. 그러나 편향과 분산은 서로 관련되어 있으므로 이는 불가능합니다.

분산을 줄이면 편향이 증가합니다.
편향을 줄이면 분산이 증가합니다.

편향-분산 균형은 지도 학습의 핵심 문제입니다. 이상적으로는 훈련 데이터의 규칙성을 정확하게 포착하는 동시에 보이지 않는 데이터 세트로 잘 일반화하는 모델이 필요합니다. 불행하게도 이 작업은 동시에 수행할 수 없습니다. 고분산 알고리즘은 훈련 데이터에서는 잘 작동할 수 있지만 잡음이 있는 데이터에는 과적합이 발생할 수 있기 때문입니다. 반면에 높은 편향 알고리즘은 데이터의 중요한 규칙성을 포착하지 못할 수도 있는 훨씬 단순한 모델을 생성합니다. 따라서 최적의 모델을 만들기 위해서는 편향과 분산 사이의 최적점을 찾아야 합니다.

따라서, 편향-분산 절충은 편향과 분산 오류 사이의 균형을 맞추기 위한 최적의 지점을 찾는 것입니다.