๐Ÿน STUDY/Tech Stack

๊ฐ•ํ™”ํ•™์Šต #1

์ง€ ์› 2021. 4. 6. 19:21

๊ฐ•ํ™”ํ•™์Šต Reinforcement Learning

 

๊ฐ•ํ™”ํ•™์Šต์€ ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ์˜์—ญ์ด๋‹ค.

Agent๋Š” ํ™˜๊ฒฝ์— ๋Œ€ํ•œ State ์ •๋ณด๋ฅผ ๋ฐ›๊ณ  ๊ทธ์— ๋”ฐ๋ฅธ Action์„ ์ทจํ•œ๋‹ค. Action์— ๋Œ€ํ•œ Reward๋ฅผ ๋ฐ›๊ณ , ๊ทธ ํ–‰๋™์— ๋Œ€ํ•ด ํ‰๊ฐ€๋ฅผ ํ•˜๋ฉฐ ์–ด๋Š ๋ฐฉํ–ฅ์œผ๋กœ ํ–‰๋™ํ•˜๋Š” ๊ฒƒ์ด ๋” ํฐ Rewrad๋ฅผ ๋ฐ›์„์ง€ ํ•™์Šตํ•œ๋‹ค.

 

 

๋จธ์‹ ๋Ÿฌ๋‹์˜ ์ข…๋ฅ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

- supervised learning

- unsupervised learning

- reinforcement learning

 

(๋น„)์ง€๋„ ํ•™์Šต์€ ์‚ฌ๋žŒ์ด ๋ฐ์ดํ„ฐ ์…‹์„ ๊ด€๋ฆฌํ•˜๊ณ  ์ž…๋ ฅํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์ด ํ•„์š”ํ•˜๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ๊ฐ’์€ ๊ฒฐ๊ตญ์—” ์‚ฌ๋žŒ์˜ ๊ฒฐ๊ณผ๊ฐ’์„ ํ‰๋‚ด ๋‚ด๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ๋žŒ๋ณด๋‹ค ๋” ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋‚ผ ๊ฒƒ์ด๋ผ๊ณ  ๊ธฐ๋Œ€ํ•˜๊ธฐ ์–ด๋ ต๋‹ค.

 


Markov Decision Process (MDP)

 

 

Markov property๋Š” ํ˜„์žฌ์— ๋Œ€ํ•œ ์กฐ๊ฑด๋ถ€๋กœ ๊ณผ๊ฑฐ์™€ ๋ฏธ๋ž˜๊ฐ€ ์„œ๋กœ ๋…๋ฆฝ์ธ ํ™•๋ฅ ๊ณผ์ •์ด๋‹ค. ๋ฏธ๋ž˜์˜ S(state)์™€ R(reward)๋กœ ์ธํ•ด ํ˜„์žฌ์˜ S์™€ A(action)๊ฐ€ ์˜ํ–ฅ์„ ๋ฐ›์„ ๋•Œ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ๋ฏธ๋ž˜๋ฅผ ์œ ์ถ”ํ•  ๋•Œ, ์˜ค์ง ํ˜„์žฌ์˜ ๊ฐ’๋งŒ์ด ์“ธ๋ชจ๊ฐ€ ์žˆ์œผ๋ฉฐ ๊ณผ๊ฑฐ์˜ ๊ฐ’๋“ค์€ ์•„๋ฌด๋Ÿฐ ์ถ”๊ฐ€ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜์ง€ ์•Š๋Š”๋‹ค. 

์‹์—์„œ์˜ p๋Š” MDP์˜ kernel(์ปค๋„)์ด๋ผ๊ณ  ํ•œ๋‹ค.

 

Markov property

 


Policy

 

Policy๋Š” input์œผ๋กœ ํ˜„์žฌ state๋ฅผ ๋ฐ›๊ณ , output์œผ๋กœ ์–ด๋–ค action์„ ๋‚ด๋ณด๋‚ผ์ง€ ํ™•๋ฅ ๋กœ ์ฃผ์–ด์ง€๋Š” ๊ฒƒ์ด๋‹ค.

Trajectory = (Sโ‚€, Aโ‚€, Rโ‚, Sโ‚, Aโ‚, Rโ‚‚, Sโ‚‚, Aโ‚‚ ... )

 

Kernel p๋Š” ๋ณ€ํ™”๋œ ์ƒํ™ฉ, ๋ฆฌ์›Œ๋“œ์— ๋Œ€ํ•œ ๊ฒƒ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. (Rโ‚, Sโ‚ / Rโ‚‚, Sโ‚‚)

MDP์˜ ์ตœ์ข… ๋ชฉํ‘œ๋Š” ์ถ•์ ๋œ reward์˜ ๊ฐ’์ด ์ตœ๋Œ€๊ฐ€ ๋˜๊ฒŒ ํ•˜๋Š” optimal ํ•œ policy๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. 

 

 

- deterministic : ์–ด๋–ค input์— ๋Œ€ํ•ด ํ™•์ •์ ์œผ๋กœ output์„ ๊ฒฐ์ •ํ•˜๋Š” ๊ฒฝ์šฐ

- stationary : ์‹œ๊ฐ„์— ๋”ฐ๋ผ์„œ output์ด ๋ณ€ํ•˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ

- nonstationary : ์‹œ๊ฐ„์— ๋”ฐ๋ผ์„œ output์ด ๋ณ€ํ•˜๋Š” ๊ฒฝ์šฐ 

 

reward์˜ ์š”์†Œ์—๋Š” discount cumulated reward๊ฐ€ ์ž์ฃผ ์“ฐ์ธ๋‹ค. ์ด๋Š” ์‹œ๊ฐ„์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜๋Š” reward์˜ ์š”์†Œ์ด๋‹ค. 

Discount factor γ๋Š” 0๊ณผ 1์‚ฌ์ด์˜ ์ˆ˜๋กœ, 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๋ฏธ๋ž˜์— ๋Œ€ํ•œ ๊ฐ€์น˜๋ฅผ ๊ธธ๊ฒŒ ๋ณธ๋‹ค.

 

 

 

 

E[ ] ๊ด„ํ˜ธ ์•ˆ์— ์žˆ๋Š” ์‹์„ Gt, return์ด๋ผ๊ณ  ๋ถ€๋ฅด๋ฉฐ ์–ด๋–ค reward๋ฅผ ๋ฐ›์•˜๋Š”์ง€ random variable๋กœ ํ‘œํ˜„ํ•œ ๊ฒƒ์ด๋‹ค. 

 

 


Bellman Equation

 

value function์„ ๋‹ค์Œ function์— ๋Œ€ํ•ด์„œ ์ •๋ฆฌ๋ฅผ ํ•ด๋ณด๋ฉด, S1์—์„œ ๋‹ค์Œ S2๋กœ ๊ฐ€๋Š” ๊ณผ์ •์—๋Š” R์„ ํ•œ๋ฒˆ ๊ฑฐ์น˜๋ฏ€๋กœ, discount factor๋ฅผ ๊ณฑํ•œ ๊ฐ’์œผ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ด๋Š” ๋‹ค์Œ S์—๋„ ์ ์šฉ์ด ๋˜๋Š” ๋ฐ˜๋ณต์ ์ธ ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์ด๋ฅผ ์‹์œผ๋กœ ํ‘œํ˜„ํ•œ ๊ฒƒ์ด Bellman Equation ์ด๋‹ค.

 

 

Bellman Equation

 

 

Bellman operatior

 

Bπ๋ฅผ Bellman operator๋กœ ์ •์˜ํ•œ๋‹ค. ์ด๋Š” input, output์„ ๋ชจ๋‘ ํ•จ์ˆ˜๋กœ ๊ฐ–๋Š” operator์ด๋‹ค. ํ•จ์ˆ˜์—์„œ ํ•จ์ˆ˜๋กœ์˜ mappongํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•œ ์ด์œ ๋Š” ์ด ์‹์—์„œ ์ธ์ž๋กœ state์™€ value(vπ)๋งŒ์„ ๋ฐ›๊ณ , ๋‚˜๋จธ์ง€๋Š” MDP parameter์— ์˜ํ•ด์„œ ๊ฒฐ์ •๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.


 

Action-Value Function (Q-function)

 

๊ฐ state๋งˆ๋‹ค a๊ฐœ์˜ action์ด ์กด์žฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— s์˜ a์Šน์ด๋ผ๋Š” ๊ฐ€๋Šฅํ•œ determenisitc์ด ์ƒ๊ธฐ๊ฒŒ ๋˜๋ฏ€๋กœ Value function ๋งŒ์œผ๋กœ optimal ํ•œ policy๋ฅผ ์ฐพ๋Š” ๊ฒƒ์€ ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด action-value function (Q-function)์„ ์‚ฌ์šฉํ•˜๊ฒŒ ๋œ๋‹ค. 

 

Q-function์€ ์–ด๋– ํ•œ policy๊ฐ€ ์ฃผ์–ด์ง€๊ณ , state์™€ action์„ ์ธ์ž๋กœ ๊ฐ–๋Š”๋‹ค. T์ผ ๋•Œ์˜ ์ธ์ž๋ฅผ ์ง‘์–ด๋„ฃ์€ ํ›„ t+1์˜ action๋ถ€ํ„ฐ๋Š” ์ฃผ์–ด์ง„ policy๋ฅผ ๋”ฐ๋ผ๊ฐ€๊ณ  ์–ด๋–ป๊ฒŒ ๋˜๋Š”์ง€ ๊ด€์ฐฐํ•˜๋Š” function์ด๋‹ค.

 

 

 

 

 

 

Value function ๊ณผ๋Š” ๋น„์Šทํ•ด ๋ณด์ด์ง€๋งŒ At=a๋ผ๋Š” ์กฐ๊ฑด์ด ์ถ”๊ฐ€๋œ๋‹ค. Q function์„ ํ†ตํ•ด policy๋ฅผ ๋” ์ข‹๊ฒŒ ๊ฐœ์„ ์‹œํ‚ค๊ณ , ๋” ๊ฐœ์„ ๋œ policy ๋ฅผ ์ด์šฉํ•ด value function ์„ ๋‹ค์‹œ ์ธก์ •ํ•œ ํ›„, ๊ทธ๊ฑธ๋กœ Q function์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ policy๋ฅผ ๊ฐœ์„ ์‹œํ‚จ๋‹ค. ์ด๋ ‡๊ฒŒ ๋Œ์•„ ๋Œ์•„ ๊ฐœ์„ ํ•ด ๋‚˜๊ฐ€๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ Policy Iiteration์ด๋ผ๊ณ  ํ•œ๋‹ค.

 

 

'๐Ÿน STUDY > Tech Stack' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

์›น์–ด์…ˆ๋ธ”๋ฆฌ(WebAssembly)  (0) 2023.03.07
Wireless Channel Characteristics - Fading Channel  (0) 2021.12.06