머신러닝의 하이퍼파라미터는 학습 프로세스를 제어하기 위해 사용자가 명시적으로 정의한 매개변수입니다. 이러한 하이퍼파라미터는 모델의 학습을 향상시키는 데 사용되며, 해당 값은 모델의 학습 프로세스를 시작하기 전에 설정됩니다.
이 주제에서는 기계 학습의 가장 중요한 개념 중 하나인 하이퍼파라미터, 그 예, 하이퍼파라미터 튜닝, 하이퍼파라미터 범주, 하이퍼파라미터가 머신러닝의 매개변수와 어떻게 다른지에 대해 논의하겠습니다. 하지만 시작하기 전에 먼저 Hyperparameter에 대해 알아보겠습니다.
하이퍼파라미터란 무엇입니까?
머신러닝/딥러닝에서 모델은 매개변수로 표현됩니다. 이와 대조적으로 훈련 프로세스에는 최상의 결과를 제공하기 위해 학습 알고리즘에서 사용되는 최상의/최적 하이퍼 매개변수를 선택하는 작업이 포함됩니다. 그렇다면 이러한 하이퍼파라미터는 무엇일까요? 정답은, ' 하이퍼파라미터는 학습 과정을 제어하기 위해 사용자가 명시적으로 정의한 매개변수로 정의됩니다.
여기서 접두사 '하이퍼'는 매개변수가 학습 프로세스를 제어하는 데 사용되는 최상위 매개변수임을 나타냅니다. 하이퍼파라미터의 값은 학습 알고리즘이 모델 학습을 시작하기 전에 기계 학습 엔지니어가 선택하고 설정합니다. 따라서 이는 모델 외부에 있으며 훈련 과정 중에 해당 값을 변경할 수 없습니다. .
C에서 포인터를 역참조하는 방법
머신러닝의 하이퍼파라미터의 몇 가지 예
- kNN의 k 또는 K-Nearest Neighbor 알고리즘
- 신경망 훈련을 위한 학습률
- 열차-테스트 분할 비율
- 배치 크기
- 에포크 수
- 의사결정 트리의 분기
- 클러스터링 알고리즘의 클러스터 수
매개변수와 하이퍼 매개변수의 차이점은 무엇인가요?
매개변수와 하이퍼파라미터 또는 모델 하이퍼파라미터 사이에는 항상 큰 혼동이 있습니다. 따라서 이러한 혼란을 없애기 위해 둘 사이의 차이점과 서로 어떻게 관련되어 있는지 이해해 봅시다.
모델 매개변수:
모델 매개변수는 모델 내부에 있는 구성 변수이며, 모델은 이를 자체적으로 학습합니다. 예를 들어 , W 선형 회귀 모델에서 독립 변수의 가중치 또는 계수 . 또는 SVM의 독립 변수의 가중치 또는 계수, 신경망의 가중치 및 편향, 클러스터링의 클러스터 중심. 모델 매개변수의 몇 가지 핵심 사항은 다음과 같습니다.
- 예측을 위해 모델에서 사용됩니다.
- 모델은 데이터 자체에서 학습합니다.
- 일반적으로 수동으로 설정되지 않습니다.
- 이는 모델의 일부이자 기계 학습 알고리즘의 핵심입니다.
모델 초매개변수:
하이퍼파라미터는 학습 과정을 제어하기 위해 사용자가 명시적으로 정의한 매개변수입니다. 모델 매개변수의 몇 가지 핵심 사항은 다음과 같습니다.
- 이는 일반적으로 기계 학습 엔지니어가 수동으로 정의합니다.
- 주어진 문제에 대한 하이퍼파라미터의 정확한 최적 값을 알 수 없습니다. 최상의 값은 경험 법칙이나 시행착오를 통해 결정될 수 있습니다.
- 하이퍼파라미터의 몇 가지 예는 다음과 같습니다. 신경망 훈련을 위한 학습률 KNN 알고리즘의 K
하이퍼파라미터 카테고리
하이퍼파라미터는 크게 두 가지 범주로 나눌 수 있으며, 그 범주는 다음과 같습니다.
최적화를 위한 초매개변수
사용할 최상의 하이퍼파라미터를 선택하는 프로세스를 하이퍼파라미터 튜닝이라고 하며, 튜닝 프로세스를 하이퍼파라미터 최적화라고도 합니다. 최적화 매개변수는 모델을 최적화하는 데 사용됩니다.
널리 사용되는 최적화 매개변수 중 일부는 다음과 같습니다.
참고: 학습률은 모델 최적화를 위한 중요한 하이퍼 매개변수이므로 단일 하이퍼 매개변수만 조정해야 하는 경우 학습률을 조정하는 것이 좋습니다.
특정 모델에 대한 초매개변수
모델의 구조와 관련된 하이퍼파라미터를 특정 모델의 하이퍼파라미터라고 합니다. 이는 아래와 같습니다:
신경망에 대한 숨겨진 단위 하이퍼파라미터의 수를 지정하는 것이 중요합니다. 입력 레이어의 크기와 출력 레이어의 크기 사이에 있어야 합니다. 보다 구체적으로, 은닉 유닛의 수는 입력 레이어 크기의 2/3에 출력 레이어 크기를 더한 값이어야 합니다.
복잡한 함수의 경우 은닉 유닛의 수를 지정해야 하지만 모델에 과적합되어서는 안 됩니다.
결론
하이퍼파라미터는 기계 학습 알고리즘을 데이터 세트에 적용하기 전에 학습 프로세스를 제어하기 위해 명시적으로 정의된 매개 변수입니다. 이는 모델의 학습 능력과 복잡성을 지정하는 데 사용됩니다. 하이퍼파라미터 중 일부는 배치 크기, 학습률 등과 같은 모델 최적화에 사용되며 일부는 숨겨진 레이어 수 등과 같은 모델에만 사용됩니다.