Reinforcement Learning (강화 학습)

Introduction to Reinforcement Learning
Multi-Armed Bandit
- 멀티암드 관련 코드
Markov Decision Process
- 마르코프 결정 과정 관련 코드 (환경: 그리드 월드)
Dynamic Programming
- 정책 평가(Policy Evaluation) 코드 (환경: 그리드 월드)
- 정책 반복(Policy Iteration) 코드 (환경: 그리드 월드)
- 가치 반복(Value Iteration) 코드 (환경: 그리드 월드)
- 동적 프로그래밍의 정책 반복 및 가치 반복 실험 - 자바스크립트 버전
Monte Carlo Method
- 몬테카를로 예측(Prediction) 코드 (환경: 그리드 월드)
- 행동 가치의 몬테카를로 예측(Prediction) 코드 (환경: 그리드 월드)
- 탐험적 시작 기반 몬테카를로 제어(Control) 코드 (환경: 그리드 월드)
- 소프트 정책 기반 몬테카를로 제어(Control) 코드 (환경: 그리드 월드)
- Off-policy 몬테카를로 제어(Control) 코드 (환경: 그리드 월드)
Temporal-Difference Learning
- 시간차 예측 (환경: 랜덤 워크)
- 시간차 예측 (환경: 그리드 월드)
- 시간차 제어 (환경: 절벽이 있는 그리드 월드)
- SARSA와 Q-Learning 실험 - 자바스크립트 버전
n-step TD Learning
Planning & Learning
- Dyna-Q, Dyna-Q+, Prioritized Dyna-Q (환경: 미로)
실습을 위한 RL 환경
- 그리드 월드/절벽이 있는 그리드 월드
- 랜덤 워크
- 미로

DQN (from Vanilla DQN to Nature DQN)
- Nature DQN (Tensorflow 2.2)
- Frame Skipping and Pre-Processing for Deep Q-Networks on Atari 2600 Games
- Deep Reinforcement Learning Hands-On - Second Edition
Double DQN, Dueling DQN, PER (Prioritized Experience Replay)
- Double DQN (Tensorflow 2.2)
- Dueling DQN (Tensorflow 2.2)
- Dueling Double DQN (Tensorflow 2.2)
- PER + Dueling Double DQN (Tensorflow 2.2)
Distributional DQN

LINK@KOREATECH