reinforcement learning 5

[RL 이론] 2-3. Exploration과 Exploitation: UCB Algorithm

개요 앞의 포스팅에서는 Multi-armed bandit problem 을 구현하고 모델의 학습을 위한 방법으로 Exploration, Exploitation, Epsilon decay, Incremental Implementation 등에 대해 알아봤습니다. 이번 포스팅에서는 초기 Reward 값을 높게 줘서 Exploration을 간접적으로 수행하는 Optimistic initial values 방법과, Action 들을 Random 하게 추출하는 대신 각 Action에 대해 Uncertainty 값을 주어 효율적으로 추출하는 방법인 UCB algorithm 을 살펴봅니다. 본 포스팅에서 다루는 설명은 Sutton의 강화학습 책을 많이 참고하였습니다. 관련 코드는 Github 에서 확인할 수 있습니다..

[RL 이론] 2-2. Exploration과 Exploitation: Greedy Method vs. Epsilon-greedy Method

개요 앞의 포스팅에서는 강화학습의 개념을 이해하고, 강화학습을 구성하는 필수 요소들에 대해 알아봤습니다. 이번 포스팅에서는 강화학습 분야에서 오랜 기간동안 연구되어 온 Multi-armed Bandit 문제를 구현하여 Exploration과 Exploitation 에 대해 설명드리겠습니다. 본 포스팅에서 다루는 설명은 Sutton의 강화학습 책을 많이 참고하였습니다. 전체 코드는 Github 에서 확인할 수 있습니다. Greedy Method Exploitation을 하기 위해서 우리는 행동에 대한 평가가 필요합니다. 이 평가는 이전 포스팅에서 배운 Value라는 값을 통해 수행됩니다. Multi-armed Problem에서는 슬롯머신을 선택하는 것을 Action, 특정 슬롯머신을 작동시켰을 때 받는 R..

[RL 이론] 2-1. Exploration과 Exploitation: Multi-armed Bandit Problem

개요 앞의 두 포스팅에서는 강화학습의 개념을 이해하고, 강화학습을 구성하는 필수 요소들에 대해 대략적으로 알아봤습니다. 앞에서 나온 모든 개념들을 복잡한 문제에 적용하기 전에, 간단한 문제에 적용하는 것에서 시작하겠습니다. 본 포스팅부터는 강화학습 분야에서 오랜 기간동안 연구되어 온 Multi-armed Bandit 문제를 기반으로 Exploration과 Exploitation에 대해 살펴보려고 합니다. 대부분의 내용은 Sutton의 강화학습 책을 주로 참고하였습니다. Multi-armed Bandit Problem Multi-armed Bandit Problem을 설명하기 위해 보통 카지노의 슬롯머신을 예로 듭니다. 한 강도(Bandit)가 카지노에 침입하여 K 개의 슬롯머신(K-armed)을 경찰이 ..

[RL 이론] 1-2. 강화학습의 구성 요소

개요 이전 포스팅에서 Agent가 Action을 수행했을 때 Environment와의 상호작용을 통해 Agent가 학습한다고 배웠습니다. Agent와 Environment, Action 에 대해 구체적이지는 않지만 간단한 개념을 이해하고 계실텐데요. 본 포스팅에서는 강화학습을 이해하기 위해 필요한 추가적인 개념들을 살펴보고 Atari 게임에 그 개념을 도입해볼 것입니다. 강화학습의 구성 요소 Sutton의 책에서는 RL System을 구성하는 4가지 주요한 Subelements를 다음과 같이 소개합니다. Policy Reward Signal Value Function Model of the environment 여기에 추가로 본 포스팅에서는 State와 Observation, History 의 개념에 대..

[RL 이론] 1-1. Introduction

개요 대학생때부터 강화학습에 관심을 가지고 공부를 했었지만, 실질적으로 강화학습을 적용할 분야를 찾기가 어려웠고 그렇게 3년의 시간이 흘렀습니다. 정리를 하지 않다보니 공부할때마다 뭔가 새로운 기분이 들었는데, 이번에 마인즈앤컴퍼니 회사에서 강화학습으로 내부 연구를 진행하기로 하여 이 참에 블로그도 운영할 겸 내용을 정리해보고자 합니다. 이 강화학습 글들은 마인즈앤컴퍼니의 Tistory 에도 게시가 될 예정입니다. 본 시리즈는 강화학습의 아버지라고 불리는 Sutton의 Reinforcement Learning An Introduction 2nd Edition 책을 기반으로 작성할 예정입니다. 책 이름은 Introduction 이지만 상당히 분량도 많고 자세해서 처음 접하는 사람에게는 어려울 수 있으나, ..