π€ κ°ννμ΅ μ΄μ§λ€μ΄ λ§λ μ 리ν μ€ν°λ κΈ°λ‘
κ°ννμ΅μ 'γ±' μλ λͺ¨λ₯΄λ 4λͺ
μ΄ λ§λ λ°©νλμ 곡λΆν λ΄μ©μ κΈ°λ‘ν©λλ€. μ²μ κ°ννμ΅μ 곡λΆνλ μ¬λλ€λ μ΄ν΄νκΈ° μ½κ² λ΄μ©μ μ 리νκ³ μ ν©λλ€. νλ‘κ·Έλλ¨Έλ₯Ό μν κ°ννμ΅
κ΅μ¬λ₯Ό κΈ°λ°μΌλ‘ νλ©°, λ€λ₯Έ μ¬λ¬ νμ΅μλ£λ₯Ό νμ©νμ¬ λ΄μ©μ ꡬμ±νμμ΅λλ€.
- Period : 2024/01/09 - 2024/02/26 (λ λ¬)
1. κ°ννμ΅ κΈ°λ³Έ κ°λ
- λ§μ½ν μμ±κ³Ό λ§μ½ν μ°μ
- λ§μ½ν 보μκ³Όμ (MRP)μ λ²¨λ§ λ°©μ μ(Bellman Equation)
2. κ°ννμ΅ κΈ°λ³Έ μκ³ λ¦¬μ¦
- λ§μ½ν κ²°μ κ³Όμ (MDP, Markov Decisioin Process)
- MDP νλ κ°μΉ ν¨μ(Qν¨μ)μ MDP μ΅μ κ°μΉ ν¨μ
- μ μ± νκ°μ μ μ± μ μ΄ / λͺ¨λΈ κΈ°λ°κ³Ό λͺ¨λΈ ν리
- λ€μ΄λ΄λ―Ή νλ‘κ·Έλλ°
- λͺ¬ν μΉ΄λ₯Όλ‘ λ°©λ²
- TDμ SARSA
- Q-Learning
μμμ | μ΄κ°ν | μ‘°μν | νμ£Όμ |
---|---|---|---|