화공 연구소

DQN (Deep Q Networks)는 많은 Data를 처리하기 위해서 개발되었습니다. Atrari 라는 단순한 게임을 최적화 하는 것으로 많은 설명이 되고 있습니다. 기존의 방식의 Q Learning은 경험이 있어야지만, State 값을 예측할 수 있었습니다. [1] 하지만, DQN의 경우 State에 대한 값이 없더라도 예측을 할 수 있다는 장점이 있습니다. 여기에 추가적인 장점으로 Sampling을 통해서 경험을 여러 번 반복 학습이 가능하여 학습 과정을 빨리 할 수 있또록 도와줄 수 있습니다. DQN introduction 먼저 강화 학습의 경우 Policy base인지, Value base인지에 따라서 두 가지 경우로 최적화 과정을 나눠줄 수 있습니다. 그림 1. 강화 학습 기본 구조 DQN은 Value based 강화 학습입니다. DQN 명칭에서 부터 Q function을 최적화 하는 과정임을 알 수 있습니다. Atrai라는 게임을 가지고 점수를 최대화 하는 과정이 있다고 하겠습니다. 그러면, 점수를 얻는 것이 Reward가 되고, 게임기를 움직이는 것이 Action이 됩니다. 그림 2. DQN 학습기본 구조 여기서의 Network의 구조는 아래와 같이 Deep 하게 설계가 되었습니다. Deep Neural network의 장점은 적은 Data만 가지고도, State 값을 예측 할 수 있습니다. 그림 3. Neural Networks in reinforcement learning [1] Mini-batch (Replay) 시계열(Time Series) Data의 경우 서로 Correlation 강하게 됩니다. Correlation이 강하면, Data간의 영향이 커서, 데이터 예측성이 떨어지게됩니다. 이를 보완 하기 위하여 Experience에서 Sample을 뽑아서 추가 학습을 시킵니다. 이후, 기존 Data Set하고 비교하여 평가하는 과정을 거쳐 Correlation에 대한 영향을 줄입니다. 그림 4. DQN 전체 구조 전체적인 구조에서 Da...

이 블로그 검색

화공 연구소

글

Pharos University ME 253 Fluid Mechanics II - ppt video online download

DQN (Deep Q Networks)