๊ฐํํ์ต Reinforcement Learning
๊ฐํํ์ต์ ๋จธ์ ๋ฌ๋์ ํ ์์ญ์ด๋ค.
Agent๋ ํ๊ฒฝ์ ๋ํ State ์ ๋ณด๋ฅผ ๋ฐ๊ณ ๊ทธ์ ๋ฐ๋ฅธ Action์ ์ทจํ๋ค. Action์ ๋ํ Reward๋ฅผ ๋ฐ๊ณ , ๊ทธ ํ๋์ ๋ํด ํ๊ฐ๋ฅผ ํ๋ฉฐ ์ด๋ ๋ฐฉํฅ์ผ๋ก ํ๋ํ๋ ๊ฒ์ด ๋ ํฐ Rewrad๋ฅผ ๋ฐ์์ง ํ์ตํ๋ค.
๋จธ์ ๋ฌ๋์ ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ์ด ๋ณผ ์ ์๋ค.
- supervised learning
- unsupervised learning
- reinforcement learning
(๋น)์ง๋ ํ์ต์ ์ฌ๋์ด ๋ฐ์ดํฐ ์ ์ ๊ด๋ฆฌํ๊ณ ์ ๋ ฅํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋ง์ ์๊ฐ๊ณผ ๋น์ฉ์ด ํ์ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชฉํ๋ก ํ๋ ๊ฐ์ ๊ฒฐ๊ตญ์ ์ฌ๋์ ๊ฒฐ๊ณผ๊ฐ์ ํ๋ด ๋ด๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์ฌ๋๋ณด๋ค ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ผ ๊ฒ์ด๋ผ๊ณ ๊ธฐ๋ํ๊ธฐ ์ด๋ ต๋ค.
Markov Decision Process (MDP)
Markov property๋ ํ์ฌ์ ๋ํ ์กฐ๊ฑด๋ถ๋ก ๊ณผ๊ฑฐ์ ๋ฏธ๋๊ฐ ์๋ก ๋ ๋ฆฝ์ธ ํ๋ฅ ๊ณผ์ ์ด๋ค. ๋ฏธ๋์ S(state)์ R(reward)๋ก ์ธํด ํ์ฌ์ S์ A(action)๊ฐ ์ํฅ์ ๋ฐ์ ๋๋ฅผ ์๋ฏธํ๋ค. ๋ฏธ๋๋ฅผ ์ ์ถํ ๋, ์ค์ง ํ์ฌ์ ๊ฐ๋ง์ด ์ธ๋ชจ๊ฐ ์์ผ๋ฉฐ ๊ณผ๊ฑฐ์ ๊ฐ๋ค์ ์๋ฌด๋ฐ ์ถ๊ฐ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ง ์๋๋ค.
์์์์ p๋ MDP์ kernel(์ปค๋)์ด๋ผ๊ณ ํ๋ค.

Policy
Policy๋ input์ผ๋ก ํ์ฌ state๋ฅผ ๋ฐ๊ณ , output์ผ๋ก ์ด๋ค action์ ๋ด๋ณด๋ผ์ง ํ๋ฅ ๋ก ์ฃผ์ด์ง๋ ๊ฒ์ด๋ค.
Trajectory = (Sโ, Aโ, Rโ, Sโ, Aโ, Rโ, Sโ, Aโ ... )
Kernel p๋ ๋ณํ๋ ์ํฉ, ๋ฆฌ์๋์ ๋ํ ๊ฒ์ ๋ํ๋ธ๋ค. (Rโ, Sโ / Rโ, Sโ)
MDP์ ์ต์ข ๋ชฉํ๋ ์ถ์ ๋ reward์ ๊ฐ์ด ์ต๋๊ฐ ๋๊ฒ ํ๋ optimal ํ policy๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค.
- deterministic : ์ด๋ค input์ ๋ํด ํ์ ์ ์ผ๋ก output์ ๊ฒฐ์ ํ๋ ๊ฒฝ์ฐ
- stationary : ์๊ฐ์ ๋ฐ๋ผ์ output์ด ๋ณํ์ง ์๋ ๊ฒฝ์ฐ
- nonstationary : ์๊ฐ์ ๋ฐ๋ผ์ output์ด ๋ณํ๋ ๊ฒฝ์ฐ
reward์ ์์์๋ discount cumulated reward๊ฐ ์์ฃผ ์ฐ์ธ๋ค. ์ด๋ ์๊ฐ์ ๋ํ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ reward์ ์์์ด๋ค.
Discount factor ฮณ๋ 0๊ณผ 1์ฌ์ด์ ์๋ก, 1์ ๊ฐ๊น์ธ์๋ก ๋ฏธ๋์ ๋ํ ๊ฐ์น๋ฅผ ๊ธธ๊ฒ ๋ณธ๋ค.

E[ ] ๊ดํธ ์์ ์๋ ์์ Gt, return์ด๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ ์ด๋ค reward๋ฅผ ๋ฐ์๋์ง random variable๋ก ํํํ ๊ฒ์ด๋ค.
Bellman Equation
value function์ ๋ค์ function์ ๋ํด์ ์ ๋ฆฌ๋ฅผ ํด๋ณด๋ฉด, S1์์ ๋ค์ S2๋ก ๊ฐ๋ ๊ณผ์ ์๋ R์ ํ๋ฒ ๊ฑฐ์น๋ฏ๋ก, discount factor๋ฅผ ๊ณฑํ ๊ฐ์ผ๋ก ๋ํ๋ผ ์ ์์ผ๋ฉฐ ์ด๋ ๋ค์ S์๋ ์ ์ฉ์ด ๋๋ ๋ฐ๋ณต์ ์ธ ํน์ง์ ๊ฐ์ง๊ณ ์๋ค. ์ด๋ฅผ ์์ผ๋ก ํํํ ๊ฒ์ด Bellman Equation ์ด๋ค.



Bฯ๋ฅผ Bellman operator๋ก ์ ์ํ๋ค. ์ด๋ input, output์ ๋ชจ๋ ํจ์๋ก ๊ฐ๋ operator์ด๋ค. ํจ์์์ ํจ์๋ก์ mappongํํ์ด ๊ฐ๋ฅํ ์ด์ ๋ ์ด ์์์ ์ธ์๋ก state์ value(vฯ)๋ง์ ๋ฐ๊ณ , ๋๋จธ์ง๋ MDP parameter์ ์ํด์ ๊ฒฐ์ ๋๊ธฐ ๋๋ฌธ์ด๋ค.
Action-Value Function (Q-function)
๊ฐ state๋ง๋ค a๊ฐ์ action์ด ์กด์ฌํ๊ธฐ ๋๋ฌธ์ s์ a์น์ด๋ผ๋ ๊ฐ๋ฅํ determenisitc์ด ์๊ธฐ๊ฒ ๋๋ฏ๋ก Value function ๋ง์ผ๋ก optimal ํ policy๋ฅผ ์ฐพ๋ ๊ฒ์ ๋ถ๊ฐ๋ฅํ๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ฉํ๊ธฐ ์ํด action-value function (Q-function)์ ์ฌ์ฉํ๊ฒ ๋๋ค.
Q-function์ ์ด๋ ํ policy๊ฐ ์ฃผ์ด์ง๊ณ , state์ action์ ์ธ์๋ก ๊ฐ๋๋ค. T์ผ ๋์ ์ธ์๋ฅผ ์ง์ด๋ฃ์ ํ t+1์ action๋ถํฐ๋ ์ฃผ์ด์ง policy๋ฅผ ๋ฐ๋ผ๊ฐ๊ณ ์ด๋ป๊ฒ ๋๋์ง ๊ด์ฐฐํ๋ function์ด๋ค.

Value function ๊ณผ๋ ๋น์ทํด ๋ณด์ด์ง๋ง At=a๋ผ๋ ์กฐ๊ฑด์ด ์ถ๊ฐ๋๋ค. Q function์ ํตํด policy๋ฅผ ๋ ์ข๊ฒ ๊ฐ์ ์ํค๊ณ , ๋ ๊ฐ์ ๋ policy ๋ฅผ ์ด์ฉํด value function ์ ๋ค์ ์ธก์ ํ ํ, ๊ทธ๊ฑธ๋ก Q function์ ๊ณ์ฐํ๋ ๋ฐฉ์์ผ๋ก policy๋ฅผ ๊ฐ์ ์ํจ๋ค. ์ด๋ ๊ฒ ๋์ ๋์ ๊ฐ์ ํด ๋๊ฐ๋ ์๊ณ ๋ฆฌ์ฆ์ Policy Iiteration์ด๋ผ๊ณ ํ๋ค.
'๐น STUDY > Tech Stack' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์น์ด์ ๋ธ๋ฆฌ(WebAssembly) (0) | 2023.03.07 |
---|---|
Wireless Channel Characteristics - Fading Channel (0) | 2021.12.06 |