강화 학습에서 에이전트 또는 의사 결정자는 세계와 상호 작용하여 훈련 데이터를 생성합니다. 에이전트는 올바른 작업을 명시적으로 알려주는 대신 시행착오를 통해 해당 작업의 결과를 배워야 합니다.
다중 무장 도적 문제
강화 학습에서는 Multi-Armed Bandit 문제를 사용하여 k-armed bandit을 사용하여 불확실성 하에서의 의사 결정 개념을 공식화합니다. 의사 결정자나 에이전트는 다중 무장 도적 문제에 존재하여 k개의 서로 다른 행동 중에서 선택하고 선택한 행동에 따라 보상을 받습니다. 산적 문제는 보상, 시간 단계, 가치와 같은 강화 학습의 기본 개념을 설명하는 데 사용됩니다.
위 그림은 두 개의 레버가 있는 산적이라고도 알려진 슬롯머신을 나타냅니다. 우리는 각 레버에 별도의 보상 분배가 있고 최대 보상을 생성하는 레버가 하나 이상 있다고 가정합니다.
각 레버에 해당하는 보상의 확률 분포는 다르며 도박꾼(의사결정자)은 알 수 없습니다. 따라서 여기서의 목표는 주어진 일련의 시도 후에 최대 보상을 얻기 위해 당겨야 할 레버를 식별하는 것입니다.
예를 들어:
광고주가 동일한 제품에 대한 세 가지 다른 광고의 클릭률을 측정하려는 온라인 광고 시험을 상상해 보십시오. 사용자가 웹사이트를 방문할 때마다 광고주는 무작위로 광고를 표시합니다. 그런 다음 광고주는 사용자가 광고를 클릭하는지 여부를 모니터링합니다. 잠시 후 광고주는 한 광고가 다른 광고보다 효과가 더 좋은 것 같다는 사실을 알아차렸습니다. 이제 광고주는 실적이 가장 좋은 광고를 고수할지 아니면 무작위 연구를 계속할지 결정해야 합니다.
광고주가 하나의 광고만 표시하면 더 이상 다른 두 광고에 대한 데이터를 수집할 수 없습니다. 아마도 다른 광고 중 하나가 더 좋을 수도 있지만 우연으로 인해 더 나빠 보일 수도 있습니다. 다른 두 광고가 더 나쁜 경우 연구를 계속하면 클릭률에 부정적인 영향을 미칠 수 있습니다. 이 광고 실험은 불확실성 하에서의 의사결정을 예시합니다.
위의 예에서 에이전트의 역할은 광고주가 수행합니다. 광고주는 첫 번째, 두 번째, 세 번째 광고를 표시하기 위해 세 가지 다른 작업 중에서 선택해야 합니다. 각 광고는 행동입니다. 해당 광고를 선택하면 알 수 없는 보상이 제공됩니다. 마지막으로, 광고 이후 광고주의 이익은 광고주가 받는 보상이다.
작업 값:
광고주가 어떤 행동이 가장 좋은지 결정하려면 각 행동의 가치를 정의해야 합니다. 우리는 확률이라는 언어를 사용하는 행동-가치 함수를 사용하여 이러한 값을 정의합니다. 행동 선택의 가치 큐*(ㅏ) 기대되는 보상으로 정의된다 아르 자형티 우리는 행동을 취할 때 받습니다. ㅏ 가능한 조치 세트에서.
에이전트의 목표는 행동 가치가 가장 높은 행동을 선택하여 기대 보상을 최대화하는 것입니다.
행동 가치 추정:
향상된 for 루프 자바
행동을 선택하는 가치, 즉 큐*(ㅏ) 에이전트는 알 수 없으므로 다음을 사용하겠습니다. 표본 평균 추정하는 방법입니다.
탐색과 활용:
- Greedy Action : 에이전트가 현재 추정값이 가장 큰 액션을 선택하는 경우. 에이전트는 탐욕스러운 행동을 선택하여 현재 지식을 활용합니다. Non-Greedy Action : 에이전트가 가장 큰 추정값을 선택하지 않고 다른 작업에 대한 더 많은 정보를 얻기 위해 즉각적인 보상을 희생하는 경우입니다. 탐색 : 에이전트가 각 작업에 대한 지식을 향상시킬 수 있습니다. 장기적으로 이익을 얻을 수 있기를 바랍니다. Exploitation : 에이전트가 단기적인 이익을 위해 가장 많은 보상을 얻으려고 탐욕스러운 행동을 선택할 수 있도록 합니다. 순수한 탐욕스러운 행동 선택은 차선의 행동으로 이어질 수 있습니다.
에이전트가 탐색과 활용을 동시에 선택할 수 없기 때문에 탐색과 활용 사이에 딜레마가 발생합니다. 따라서 우리는 신뢰 상한 탐색-이용 딜레마를 해결하는 알고리즘
신뢰 상한 조치 선택:
신뢰 상한 작업 선택은 탐색과 활용의 균형을 맞추기 위해 작업 값 추정의 불확실성을 사용합니다. 샘플링된 보상 세트를 사용할 때 행동 가치 추정의 정확성에는 본질적인 불확실성이 있으므로 UCB는 추정의 불확실성을 사용하여 탐색을 유도합니다.
큐티(ㅏ) 여기에는 조치에 대한 현재 추정치가 표시됩니다. ㅏ 시간에 티 . 가장 높은 추정 액션 값과 신뢰 상한 탐색 항을 더한 액션을 선택합니다.
질문(A) 위 그림은 행동에 대한 현재 행동-가치 추정치를 나타냅니다. ㅏ . 괄호는 주위의 신뢰 구간을 나타냅니다. 큐*(ㅏ) 이는 우리가 행동의 실제 행동 가치를 확신한다는 것을 의미합니다. ㅏ 이 지역 어딘가에 있습니다.
아래쪽 괄호를 하한, 위쪽 괄호를 상한이라고 합니다. 괄호 사이의 영역은 추정치의 불확실성을 나타내는 신뢰 구간입니다. 영역이 매우 작다면 행동의 실제 가치는 매우 확실해집니다. ㅏ 우리의 추정값에 가깝습니다. 반면에 지역이 크면 행동의 가치가 불확실해집니다. ㅏ 우리의 추정값에 가깝습니다.
그만큼 신뢰 상한 불확실함에 대한 낙관주의의 원칙을 따르는데, 이는 어떤 행동이 불확실할 경우 그것이 올바른 행동이라고 낙관적으로 가정해야 한다는 것을 의미합니다.
예를 들어 아래 그림에서 불확실성과 관련된 4가지 작업이 있다고 가정해 보겠습니다. 에이전트는 어떤 작업이 최선인지 모릅니다. 따라서 UCB 알고리즘에 따르면 낙관적으로 상한이 가장 높은 동작을 선택합니다. ㅏ . 이렇게 하면 가장 높은 가치를 갖고 가장 높은 보상을 받거나, 이를 통해 우리가 가장 잘 모르는 행동에 대해 배우게 됩니다.
반복자 자바 맵
액션을 선택한 후에 가정해보자 ㅏ 결국 아래 그림과 같은 상태가 됩니다. 이번에는 UCB가 작업을 선택합니다. 비 ~부터 질문(B) 신뢰 구간이 작더라도 행동 값 추정치가 가장 높기 때문에 신뢰 상한이 가장 높습니다.
처음에 UCB는 불확실성을 체계적으로 줄이기 위해 더 많은 탐색을 수행했지만 시간이 지남에 따라 탐색이 감소했습니다. 따라서 UCB는 Epsilon-greedy, Optimistic 초기 값 등과 같은 다른 알고리즘보다 평균적으로 더 큰 보상을 얻는다고 말할 수 있습니다.