라벨이 Reinforcement인 게시물 표시

Pharos University ME 253 Fluid Mechanics II - ppt video online download

Pharos University ME 253 Fluid Mechanics II - ppt video online download : External External Flows Bodies in motion, experience fluid forces and moments. Examples include: aircraft, automobiles, buildings, ships, submarines, turbo machines. Fuel economy, speed, acceleration, stability, and control are related to the forces and moments. Airplane in level steady flight: drag = thrust & lift = weight.

Q-Learning, SARSA

이미지
안녕하세요. 화공공대생입니다. 이전 포스팅에서 대략적인 Temporal Difference(TD) Method에 대한 내용을 다뤘습니다. 해당 글은 여기 참조해주세요. Q-Learning 은 TD Method에서 off policy인 경우에 해당합니다. 먼저 On policy인 Sarsa에 대해서 소개드리고, Q-Learning에 대하여 소개 드리겠습니다. SARSA SARSA는 State Action Reward State Action의 약어 입니다. 이는 Q Value를 표현하는데로 부터 나오게 되었습니다. Q Value의 업데이트 순서를 보면 다음과 같습니다. State Action(Qvalue(old)), reward, State and Action(Qvalue(New)) Q(s_t,a_t) \leftarrow Q(s_t,a_t)+\alpha[r_{t+1} +\gamma Q(s_{t+1},a_{t+1})-Q(s_t,a_t)] SARSA 알고리즘 On policy라고 했으니, Policy는 \epsilon -greedy 같은 알고리즘을 써줘서 평가 해볼 수 있겠습니다. 알고리즘의 내용은 다음과 같습니다. State에 대해서 정의 State s에서 Q policy에 따라 Action a 선택. 2.1 loop (모든 에피소드에 대하여 다음과 같이 평가) 2.1.1 모든 Action에 따라 변화되는 State 및 Reward를 확인 2.1.2 s’에 따라 action a’ 선택 (Q-policy) 2.1.3 Q-Value Update (SARSA) 2.1.4 State , Action set update. Action value를 평가하는 알고리즘의 핵심은 2.1.1 라고 볼 수 있습니다. 또한, 방식은 2.1.3을 따라 Q-value 들을 평가 해줄 수 있게 됩니다. 여기서 조금 헷갈리 실 수 있는데, Q-policy는 Q-Value에 따라서 Action의 Probability가 달라지게 됩니다. 즉, On policy로 Pol...