logo

비지도 기계 학습

이전 주제에서는 훈련 데이터의 감독 하에 레이블이 지정된 데이터를 사용하여 모델을 훈련시키는 지도 기계 학습을 배웠습니다. 하지만 레이블이 지정된 데이터가 없고 주어진 데이터세트에서 숨겨진 패턴을 찾아야 하는 경우가 많이 있을 수 있습니다. 따라서 머신러닝에서 이러한 유형의 사례를 해결하려면 비지도 학습 기술이 필요합니다.

비지도 학습이란 무엇입니까?

이름에서 알 수 있듯이 비지도 학습은 훈련 데이터 세트를 사용하여 모델을 감독하지 않는 기계 학습 기술입니다. 대신, 모델 자체가 주어진 데이터에서 숨겨진 패턴과 통찰력을 찾아냅니다. 이는 새로운 것을 배우면서 인간의 두뇌에서 일어나는 학습에 비유될 수 있습니다. 이는 다음과 같이 정의될 수 있습니다:

무어 기계의 예
비지도 학습은 레이블이 지정되지 않은 데이터 세트를 사용하여 모델을 훈련하고 감독 없이 해당 데이터에 대해 작업을 수행할 수 있는 일종의 기계 학습입니다.

비지도 학습은 지도 학습과 달리 입력 데이터는 있지만 해당 출력 데이터가 없기 때문에 회귀 또는 분류 문제에 직접 적용할 수 없습니다. 비지도 학습의 목표는 다음과 같습니다. 데이터 세트의 기본 구조를 찾고, 유사성에 따라 해당 데이터를 그룹화하고, 해당 데이터 세트를 압축 형식으로 나타냅니다. .

예: 비지도 학습 알고리즘에 다양한 유형의 고양이와 개 이미지가 포함된 입력 데이터 세트가 제공된다고 가정해 보겠습니다. 알고리즘은 주어진 데이터 세트에 대해 훈련되지 않습니다. 즉, 데이터 세트의 기능에 대해 전혀 알지 못합니다. 비지도 학습 알고리즘의 임무는 스스로 이미지 특징을 식별하는 것입니다. 비지도 학습 알고리즘은 이미지 간의 유사성에 따라 이미지 데이터 세트를 그룹으로 클러스터링하여 이 작업을 수행합니다.

감독형 기계 학습

비지도 학습을 사용하는 이유는 무엇입니까?

비지도 학습의 중요성을 설명하는 몇 가지 주요 이유는 다음과 같습니다.

  • 비지도 학습은 데이터에서 유용한 통찰력을 찾는 데 도움이 됩니다.
  • 비지도 학습은 인간이 자신의 경험을 통해 생각하는 법을 배우는 것과 매우 유사하므로 실제 AI에 더 가깝습니다.
  • 비지도 학습은 비지도 학습을 더욱 중요하게 만드는 레이블이 없고 분류되지 않은 데이터에 대해 작동합니다.
  • 실제 세계에서는 항상 입력 데이터와 해당 출력이 있는 것은 아니므로 이러한 경우를 해결하려면 비지도 학습이 필요합니다.

비지도 학습의 작동

비지도 학습의 작동은 아래 다이어그램으로 이해할 수 있습니다.

감독형 기계 학습

여기서는 레이블이 지정되지 않은 입력 데이터를 사용했습니다. 이는 해당 데이터가 분류되지 않았으며 해당 출력도 제공되지 않음을 의미합니다. 이제 이 레이블이 지정되지 않은 입력 데이터는 훈련을 위해 기계 학습 모델에 공급됩니다. 먼저 원시 데이터를 해석하여 데이터에서 숨겨진 패턴을 찾은 다음 k-평균 클러스터링, 의사결정 트리 등과 같은 적합한 알고리즘을 적용합니다.

자바의 목록 노드

적합한 알고리즘을 적용하면 알고리즘은 개체 간의 유사점과 차이점에 따라 데이터 개체를 그룹으로 나눕니다.

비지도 학습 알고리즘의 유형:

비지도 학습 알고리즘은 두 가지 유형의 문제로 더 분류될 수 있습니다.

감독형 기계 학습
    클러스터링: 클러스터링은 가장 유사한 객체를 그룹으로 유지하고 다른 그룹의 객체와 유사성이 적거나 전혀 없도록 객체를 클러스터로 그룹화하는 방법입니다. 군집 분석은 데이터 개체 간의 공통점을 찾아 해당 공통점의 유무에 따라 분류합니다.협회: 연관 규칙은 대규모 데이터베이스에서 변수 간의 관계를 찾는 데 사용되는 비지도 학습 방법입니다. 데이터세트에서 함께 나타나는 항목 집합을 결정합니다. 연관 규칙은 마케팅 전략을 더욱 효과적으로 만듭니다. 예를 들어 X 품목(빵)을 구매하는 사람들은 Y(버터/잼) 품목도 구매하는 경향이 있습니다. 연관 규칙의 일반적인 예는 장바구니 분석입니다.

참고: 우리는 이후 장에서 이러한 알고리즘을 배울 것입니다.

비지도 학습 알고리즘:

다음은 널리 사용되는 비지도 학습 알고리즘 목록입니다.

    K-평균 클러스터링 KNN(k-최근접 이웃) 계층적 클러스터링 이상 탐지 신경망 주성분 분석 독립 성분 분석 Apriori 알고리즘 특이값 분해

비지도 학습의 장점

  • 비지도 학습은 지도 학습에 비해 더 복잡한 작업에 사용됩니다. 비지도 학습에는 레이블이 지정된 입력 데이터가 없기 때문입니다.
  • 비지도 학습은 레이블이 있는 데이터에 비해 레이블이 없는 데이터를 얻기 쉽기 때문에 선호됩니다.

비지도 학습의 단점

  • 비지도 학습은 해당 출력이 없기 때문에 지도 학습보다 본질적으로 더 어렵습니다.
  • 비지도 학습 알고리즘의 결과는 입력 데이터에 레이블이 지정되지 않고 알고리즘이 정확한 출력을 미리 알지 못하므로 정확도가 떨어질 수 있습니다.