Multi-armed bandit 3

[RL 이론] 2-3. Exploration과 Exploitation: UCB Algorithm

개요 앞의 포스팅에서는 Multi-armed bandit problem 을 구현하고 모델의 학습을 위한 방법으로 Exploration, Exploitation, Epsilon decay, Incremental Implementation 등에 대해 알아봤습니다. 이번 포스팅에서는 초기 Reward 값을 높게 줘서 Exploration을 간접적으로 수행하는 Optimistic initial values 방법과, Action 들을 Random 하게 추출하는 대신 각 Action에 대해 Uncertainty 값을 주어 효율적으로 추출하는 방법인 UCB algorithm 을 살펴봅니다. 본 포스팅에서 다루는 설명은 Sutton의 강화학습 책을 많이 참고하였습니다. 관련 코드는 Github 에서 확인할 수 있습니다..

[RL 이론] 2-2. Exploration과 Exploitation: Greedy Method vs. Epsilon-greedy Method

개요 앞의 포스팅에서는 강화학습의 개념을 이해하고, 강화학습을 구성하는 필수 요소들에 대해 알아봤습니다. 이번 포스팅에서는 강화학습 분야에서 오랜 기간동안 연구되어 온 Multi-armed Bandit 문제를 구현하여 Exploration과 Exploitation 에 대해 설명드리겠습니다. 본 포스팅에서 다루는 설명은 Sutton의 강화학습 책을 많이 참고하였습니다. 전체 코드는 Github 에서 확인할 수 있습니다. Greedy Method Exploitation을 하기 위해서 우리는 행동에 대한 평가가 필요합니다. 이 평가는 이전 포스팅에서 배운 Value라는 값을 통해 수행됩니다. Multi-armed Problem에서는 슬롯머신을 선택하는 것을 Action, 특정 슬롯머신을 작동시켰을 때 받는 R..

[RL 이론] 2-1. Exploration과 Exploitation: Multi-armed Bandit Problem

개요 앞의 두 포스팅에서는 강화학습의 개념을 이해하고, 강화학습을 구성하는 필수 요소들에 대해 대략적으로 알아봤습니다. 앞에서 나온 모든 개념들을 복잡한 문제에 적용하기 전에, 간단한 문제에 적용하는 것에서 시작하겠습니다. 본 포스팅부터는 강화학습 분야에서 오랜 기간동안 연구되어 온 Multi-armed Bandit 문제를 기반으로 Exploration과 Exploitation에 대해 살펴보려고 합니다. 대부분의 내용은 Sutton의 강화학습 책을 주로 참고하였습니다. Multi-armed Bandit Problem Multi-armed Bandit Problem을 설명하기 위해 보통 카지노의 슬롯머신을 예로 듭니다. 한 강도(Bandit)가 카지노에 침입하여 K 개의 슬롯머신(K-armed)을 경찰이 ..