개요 앞의 포스팅에서는 Multi-armed bandit problem 을 구현하고 모델의 학습을 위한 방법으로 Exploration, Exploitation, Epsilon decay, Incremental Implementation 등에 대해 알아봤습니다. 이번 포스팅에서는 초기 Reward 값을 높게 줘서 Exploration을 간접적으로 수행하는 Optimistic initial values 방법과, Action 들을 Random 하게 추출하는 대신 각 Action에 대해 Uncertainty 값을 주어 효율적으로 추출하는 방법인 UCB algorithm 을 살펴봅니다. 본 포스팅에서 다루는 설명은 Sutton의 강화학습 책을 많이 참고하였습니다. 관련 코드는 Github 에서 확인할 수 있습니다..