logo

머신러닝의 지니 지수

소개

기계 학습은 데이터를 처리하고 조사하는 방식을 개혁했으며 의사 결정 트리 알고리즘은 분류 및 회귀 작업에 대한 유명한 결정입니다. 지니 불순물(Gini Impurity) 또는 지니 계수(Gini Coefficient)라고도 불리는 지니 지수(Gini Index)는 의사결정 트리 알고리즘에 활용되는 중요한 불순물 척도입니다. 이 기사에서는 Gini Index의 개념과 수치 공식, 기계 학습에서의 적용을 철저하게 조사할 것입니다. 마찬가지로 지니 지수와 기타 불순물 측정값을 대조하고, 한계점과 장점에 대해 이야기하고, 실제 적용에 대한 상황별 분석을 조사할 것입니다. 마침내 우리는 이 주변의 연구를 위한 미래의 베어링을 소개할 것입니다.

지니지수란 무엇인가요?

지니 지수는 통계 및 금전적 환경에서 불순함이나 불평등의 비율입니다. 기계 학습에서는 분류 작업을 위한 의사결정 트리 알고리즘의 불순물 측정값으로 활용됩니다. 지니 지수는 의사결정 트리 알고리즘에 의해 임의로 선택된 테스트가 잘못 분류될 확률을 측정하며 그 값은 0(완전히 순수함)에서 1(완전히 불순함)까지입니다.

지니 지수 공식

지니 지수(Gini Index)는 순환의 불순도 또는 불평등의 비율로, 의사결정 트리 알고리즘에서 불순도 측정값으로 정기적으로 활용됩니다. 의사결정 트리와 관련하여 Gini Index는 트리의 모든 노드에서 데이터를 분할하는 데 가장 적합한 기능을 결정하는 데 사용됩니다.

지니지수의 공식은 다음과 같습니다.

머신러닝의 지니 지수

여기서 pi는 특정 클래스의 장소를 가질 확률입니다.

예를 들어, 두 클래스 An과 B가 있는 이진 분류 문제를 고려해야 합니다. 클래스 An의 확률이 p이고 클래스 B의 확률이 (1-p)인 경우 지니 지수는 다음과 같이 계산될 수 있습니다. :

지니 지수(Gini Index)의 값은 이진 분류 문제의 경우 0.0에서 0.5까지입니다. 여기서 0.0은 완벽하게 순수한 노드(모든 예에 비슷한 클래스가 있는 위치가 있음)를 나타내고 0.5는 완벽하게 불순한 노드(테스트가 두 클래스에 균등하게 분산됨)를 나타냅니다. ).

분류 문제에 지니 지수 사용

지니 지수는 일반적으로 분류 문제에 대한 의사결정 트리 알고리즘에서 불순물 측정값으로 활용됩니다. 의사결정 트리에서 모든 노드는 요소를 다루며, 목표는 기본적으로 예상할 수 있는 만큼 순수한 하위 집합으로 데이터를 분할하는 것입니다. Gini Index와 같은 불순물 측정은 모든 노드에서 최상의 분할을 결정하는 데 사용됩니다.

이를 설명하기 위해 이진 분류 문제에 대한 의사결정 트리의 예를 고려해야 합니다. 트리에는 연령과 소득이라는 두 가지 요소가 있으며, 목표는 개인이 품목을 구매할지 여부에 관계없이 예측하는 것입니다. 트리는 지니 지수(Gini Index)를 불순물 측정값으로 활용하여 구성됩니다.

루트 노드에서 지니 지수는 클래스 0 또는 클래스 1이 있는 예제의 확률을 고려하여 계산됩니다. 노드는 지니 지수의 가장 높은 감소를 초래하는 구성 요소를 고려하여 분할됩니다. 이 주기는 중지 조치가 충족될 때까지 모든 하위 집합에 대해 반복적으로 다시 해시됩니다.

의사결정 트리

의사결정 트리는 분류 및 회귀 작업 모두에 활용되는 잘 알려진 기계 학습 알고리즘입니다. 모델은 후속 하위 집합의 불순물을 제한하기 위해 결정된 정보 하이라이트의 값을 고려하여 데이터 세트를 더 적당한 하위 집합으로 반복적으로 분할하여 작동됩니다.

트리의 모든 노드에서 정보 하이라이트 중 하나의 값을 고려하여 결정이 내려지며 최종 목표는 후속 하위 집합이 기본적으로 실제로 예상할 수 있는 만큼 순수하다는 것입니다. 하위 집합의 순도는 지니 지수 또는 엔트로피와 같은 불순물 측정값을 통해 정기적으로 추정됩니다.

의사결정 트리 알고리즘은 회귀 작업뿐만 아니라 이진 및 다중 클래스 분류 작업 모두에 활용될 수 있습니다. 이진 분류 작업에서 의사결정 트리는 예 또는 아니오와 같은 이진 특성 값을 고려하여 데이터 세트를 두 개의 하위 집합으로 분할합니다. 다중 클래스 분류 작업에서 의사결정 트리는 빨간색, 녹색 또는 파란색과 같은 간단한 특성 값을 고려하여 데이터 세트를 수많은 하위 집합으로 분할합니다.

지니 지수와 기타 불순물 측정

지니 지수 외에도 엔트로피 및 정보 이득과 같이 의사결정 트리 알고리즘에서 일반적으로 사용되는 다른 불순물 측정값이 있습니다.

엔트로피:

기계 학습에서 엔트로피는 데이터 묶음의 불규칙성 또는 취약성의 비율입니다. 이는 일반적으로 지니 지수와 함께 의사결정 트리 알고리즘의 불순물 측정값으로 활용됩니다.

의사결정 트리 알고리즘에서는 엔트로피를 사용하여 트리의 모든 노드에서 데이터를 분할할 최상의 구성요소를 결정합니다. 목표는 분류 문제에 대해 가장 많은 정보를 제공하는 구성 요소와 관련된 엔트로피가 가장 크게 감소하는 요소를 찾는 것입니다.

머신러닝의 지니 지수

엔트로피와 지니 지수는 일반적으로 의사결정 트리 알고리즘에서 불순물 측정값으로 활용되지만 다양한 속성을 가지고 있습니다. 엔트로피는 클래스 이름의 순환에 더 민감하며 일반적으로 더 많은 조정된 트리를 제공하는 반면, 지니 지수는 클래스 마크의 할당에 덜 영향을 미치고 일반적으로 분할이 적은 더 제한된 트리를 생성합니다. 불순물 측정의 결정은 특정 문제와 데이터 속성에 따라 달라집니다.

정보 획득:

정보 획득은 의사결정 트리를 구축하는 동안 분할의 성격을 평가하는 데 사용되는 조치입니다. 의사결정 트리의 목적은 기본적으로 객관적 변수만큼 생각할 수 있는 동질적인 하위 집합으로 데이터를 분할하여 후속 트리를 활용하여 새로운 데이터에 대한 정확한 예측을 하는 것입니다. 정보 이득은 분할로 인해 달성된 엔트로피 또는 불순물의 감소를 측정합니다. 가장 주목할만한 정보 이득이 있는 기능은 의사결정 트리의 모든 노드에서 분할할 최고의 기능으로 선택됩니다.

정보 획득은 의사결정 트리의 분할 특성을 평가하기 위해 일반적으로 포함되는 측정이지만 집중할 수 있는 측정은 아닙니다. 예를 들어 지니 지수나 오분류율과 같은 다양한 측정값도 마찬가지로 활용될 수 있습니다. 분할 기준 결정은 주요 문제와 활용되는 데이터 세트의 속성에 따라 달라집니다.

지니 지수의 예

'Positive'와 'Negative'라는 두 가지 클래스가 있는 10개의 예제 데이터 세트가 있는 이진 분류 문제를 고려해야 합니다. 10개의 예 중 6개는 'Positive' 클래스에 속하고 4개는 'Negative' 클래스에 속합니다.

데이터 세트의 지니 지수를 계산하기 위해 먼저 각 클래스의 확률을 계산합니다.

p_1 = 6/10 = 0.6(양수)

p_2 = 4/10 = 0.4(음수)

그런 다음 해당 시점에서 Gini Index 공식을 사용하여 데이터세트의 불순도를 계산합니다.

지니(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0.6^2 + 0.4^2)

= 0.48

따라서 데이터 세트의 지니 지수는 0.48입니다.

현재 'A'와 'B'라는 두 가지 잠재적 값을 갖는 요소 'X'에서 데이터세트를 분할해야 한다고 가정합니다. 구성요소를 고려하여 데이터세트를 두 개의 하위 집합으로 나눕니다.

하위 집합 1(X = A): 양성 4개, 음성 1개

하위 집합 2(X = B): 양성 2개, 음성 3개

이 분할에 대한 지니 지수의 감소를 계산하기 위해 먼저 모든 하위 집합의 지니 지수를 계산합니다.

지니(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0.32

지니(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0.48

그런 다음 정보 획득 공식을 활용하여 지니 지수의 감소를 계산합니다.

IG(S, X) = 지니(S) - ((5/10 * 지니(S_1)) + (5/10 * 지니(S_2)))

= 0.48 - ((0.5 * 0.32) + (0.5 * 0.48))

= 0.08

따라서 하이라이트 'X'에서 데이터 세트를 분할하기 위한 정보 이득(즉, 지니 지수의 감소)은 0.08입니다.

이 상황에서 모든 요소에 대한 정보 이득을 계산하고 가장 주목할만한 정보 이득이 있는 요소를 선택하는 경우 해당 구성 요소는 의사 결정 트리의 루트 노드에서 분할할 최상의 구성 요소로 선택됩니다.

장점:

지니 지수는 의사결정 트리의 분할 특성을 평가하기 위해 광범위하게 사용되는 측정값이며 엔트로피 또는 오분류율과 같은 다양한 측정값보다 우위에 있습니다. 지니 지수 사용의 주요 이점은 다음과 같습니다.

안드로이드에 숨겨진 앱 어떻게 찾나요?

계산 효율성: 지니 지수는 로그 계산과 관련된 엔트로피와 같은 다양한 측정값에 비해 덜 복잡하고 계산 속도가 빠른 측정값입니다.

직관적인 해석: 지니 지수는 간단하고 해석이 쉽습니다. 이는 세트의 클래스 전달에 따라 무작위로 표시된 경우 세트에서 무작위로 선택된 예제가 잘못 분류될 확률을 측정합니다.

이진 분류에 적합합니다. 지니 지수는 목적 변수에 클래스가 두 개만 있는 이진 분류 문제에 특히 강력합니다. 이러한 경우 지니 지수는 다른 측정값보다 더 안정적인 것으로 알려져 있습니다.

클래스 불균형에 강함: 지니 지수는 정밀도나 오분류율과 같은 다양한 측정값에 비해 계층 불균형에 덜 민감합니다. 이는 지니 지수가 완전한 수치가 아닌 각 클래스의 예시의 일반적인 범위에 따라 달라지기 때문입니다.

과적합 가능성이 적습니다. 지니 지수는 일반적으로 다양한 측정값과 대조되는 보다 겸손한 의사결정 트리를 만들어 과적합 가능성을 줄입니다. 이는 지니 지수가 일반적으로 데이터의 적당한 크기를 만드는 기능을 선호하여 과적합 가능성을 감소시키기 때문입니다.

단점:

지니 지수는 의사결정 트리의 분할 척도로서 몇 가지 이점을 누리지만 마찬가지로 몇 가지 단점도 있습니다. 지니 지수 사용의 주요 단점은 다음과 같습니다.

카테고리가 많은 기능에 대한 편견: 지니 지수는 일반적으로 데이터를 더 많이 분할하고 구획할 수 있는 범주나 값이 많은 기능에 기울어집니다. 이는 과적합과 더 복잡한 의사결정 트리를 촉발할 수 있습니다.

연속 변수에는 좋지 않습니다. 지니 지수는 변수를 범주나 빈으로 구분해야 하므로 연속형 변수에는 적합하지 않습니다. 이로 인해 정보가 손실되고 정확성이 떨어질 수 있습니다.

기능 상호 작용을 무시합니다. 지니 지수는 각 특성의 개별적인 예지력만 고려하고 특성 간의 상호 작용을 무시합니다. 이로 인해 분할이 잘못되고 예측이 덜 정확해질 수 있습니다.

일부 데이터 세트에는 적합하지 않습니다. 때로는 지니 지수가 의사 결정 트리의 분할 특성을 평가하는 데 이상적인 척도가 아닐 수도 있습니다. 예를 들어, 객관적인 변수가 예외적으로 기울어지거나 불균형한 경우 정보 이득 또는 이득 비율과 같은 다른 측정값이 더 적합할 수 있습니다.

누락된 값이 있으면 편향되기 쉽습니다. Gini 지수는 누락된 값이 있는 경우 편향될 수 있습니다. 일반적으로 가장 유용한 정보가 아닌지 여부에 관계없이 누락된 값이 적은 기능에 기울어지기 때문입니다.

지니지수의 실제 적용

지니 지수는 강탈 위치, 신용 점수, 고객 구분 등 기계 학습의 다양한 애플리케이션에 활용되었습니다. 예를 들어, 강탈 발견에서 지니 지수는 교환 데이터의 디자인을 구별하고 기괴한 행동 방식을 식별하는 데 활용될 수 있습니다. 신용평가에서는 지니지수를 활용해 소득, 가계부채와의 관계, 대출상환실적 등의 변수를 고려하여 채무불이행 가능성을 예측할 수 있다. 고객 부문에서는 고객의 행동 방식과 성향을 고려하여 지니 지수를 활용하여 고객을 묶을 수 있습니다.

미래연구

의사결정 트리 알고리즘에서 무한히 사용됨에도 불구하고 지니 지수에 대한 연구는 여전히 수준이 남아 있습니다. 연구 분야 중 하나는 다양한 수준의 요인에 대한 성향과 같은 지니 지수의 한계를 해결할 수 있는 새로운 불순물 측정법의 발전입니다. 또 다른 연구 분야는 지니 지수(Gini Index)를 활용한 의사결정 트리 알고리즘의 간소화입니다. 예를 들어 의사결정 트리의 정확성에 작업하기 위한 의상 기술 활용이 있습니다.

결론

지니 지수는 분류 작업을 위한 의사결정 트리 알고리즘에 사용되는 중요한 불순물 측정값입니다. 이는 임의로 선택된 테스트가 의사결정 트리 알고리즘에 의해 잘못 분류될 확률을 측정하며 해당 값은 0(완전히 순수)에서 1(완전히 불순)까지입니다. 지니 지수는 간단하고 실행 가능하며 계산적으로 생산적이며 예외에 강력합니다. 이는 허위 진술 발견, 신용 평가, 고객 분할과 같은 기계 학습의 다양한 애플리케이션에 활용되었습니다. 지니 지수에는 몇 가지 제한 사항이 있지만 개선 및 새로운 불순물 측정 방법에 대한 연구 정도는 여전히 남아 있습니다.