DQN (Deep Q Networks)

- 11월 28, 2021

DQN (Deep Q Networks)는 많은 Data를 처리하기 위해서 개발되었습니다. Atrari 라는 단순한 게임을 최적화 하는 것으로 많은 설명이 되고 있습니다. 기존의 방식의 Q Learning은 경험이 있어야지만, State 값을 예측할 수 있었습니다. [1] 하지만, DQN의 경우 State에 대한 값이 없더라도 예측을 할 수 있다는 장점이 있습니다.

여기에 추가적인 장점으로 Sampling을 통해서 경험을 여러 번 반복 학습이 가능하여 학습 과정을 빨리 할 수 있또록 도와줄 수 있습니다.

DQN introduction

먼저 강화 학습의 경우 Policy base인지, Value base인지에 따라서 두 가지 경우로 최적화 과정을 나눠줄 수 있습니다.

DQN은 Value based 강화 학습입니다. DQN 명칭에서 부터 Q function을 최적화 하는 과정임을 알 수 있습니다. Atrai라는 게임을 가지고 점수를 최대화 하는 과정이 있다고 하겠습니다. 그러면, 점수를 얻는 것이 Reward가 되고, 게임기를 움직이는 것이 Action이 됩니다.

여기서의 Network의 구조는 아래와 같이 Deep 하게 설계가 되었습니다. Deep Neural network의 장점은 적은 Data만 가지고도, State 값을 예측 할 수 있습니다.

그림 3. Neural Networks in reinforcement learning [1]

Mini-batch (Replay)

시계열(Time Series) Data의 경우 서로 Correlation 강하게 됩니다. Correlation이 강하면, Data간의 영향이 커서, 데이터 예측성이 떨어지게됩니다. 이를 보완 하기 위하여 Experience에서 Sample을 뽑아서 추가 학습을 시킵니다. 이후, 기존 Data Set하고 비교하여 평가하는 과정을 거쳐 Correlation에 대한 영향을 줄입니다.

전체적인 구조에서 Data를 저장합니다. 전체 Data에서 몇 개의 Sample data를 뽑아서 MiniBatch를 돌리고, 이 결과에서 최대 보상을 주는 값을 뽑아서 Back propagation 해줍니다. 이에 따라, 학습과정을 단축 시키고, 최대의 Q value를 얻는 Policy를 얻게 됩니다.

Extensions

DQN의 base로 여러가지 Method를 적용해볼 수 있습니다. 대략적으로 6가지 정도 확장이 가능합니다. Double, N-Step, Noisy net (exploration), Dueling, Prioritized Replay buffer, Distributional이 있습니다.

N-step

N step의 경우 기존 방법하고 동일 합니다.

Noisy Net (Exploration)

$\epsilon$ 여태 까지의 방법은 greedy method를 통해 exploration을 해주죠? 이를 보다 더 합리적으로 하기 위하여 Neural Network에 $\epsilon$ Noise를 주어서 exploration을 바로 하는 경우가 됩니다.

Dueling

Prioritized replay buffer

replay (minibatch)를 Test를 수행할 때 우선순위를 부여함에 따라, replay 자체를 효율적으로 하겠다는 것입니다. 우선순위는 Weighting을 부여함에 따라서, 우선적으로 중요 데이터만 뽑아서 Minibatch replay를 수행할 수 있습니다.

감사합니다. ( )

참고 문헌

[1] Human-level control through deep reinforcement learning

이 블로그 검색

화공 연구소

Pharos University ME 253 Fluid Mechanics II - ppt video online download