Deep Reinforcement Learning (Deep RL)
-
Probability, Bayes’ theorem
-
Information, Entropy, Cross Entropy, KL Divergence, Likelihood, MLE, and MAP
-
Introduction to Reinforcement Learning
-
Multi-Armed Bandit
-
Markov Decision Process
-
마르코프 결정 과정 관련 코드 (환경: 그리드 월드)
-
Dynamic Programming
-
정책 평가(Policy Evaluation) 코드 (환경: 그리드 월드)
-
정책 반복(Policy Iteration) 코드 (환경: 그리드 월드)
-
가치 반복(Value Iteration) 코드 (환경: 그리드 월드)
-
동적 프로그래밍의 정책 반복 및 가치 반복 실험 - 자바스크립트 버전
-
Monte Carlo Method
-
몬테카를로 예측(Prediction) 코드 (환경: 그리드 월드)
-
행동 가치의 몬테카를로 예측(Prediction) 코드 (환경: 그리드 월드)
-
탐험적 시작 기반 몬테카를로 제어(Control) 코드 (환경: 그리드 월드)
-
소프트 정책 기반 몬테카를로 제어(Control) 코드 (환경: 그리드 월드)
-
Off-policy 몬테카를로 제어(Control) 코드 (환경: 그리드 월드)
-
Temporal-Difference Learning
-
시간차 예측 (환경: 랜덤 워크)
-
시간차 예측 (환경: 그리드 월드)
-
시간차 제어 (환경: 절벽이 있는 그리드 월드)
-
SARSA와 Q-Learning 실험 - 자바스크립트 버전
-
n-step TD Learning
-
Planning & Learning
-
Dyna-Q, Dyna-Q+, Prioritized Dyna-Q (환경: 미로)
-
실습을 위한 RL 환경
-
그리드 월드/절벽이 있는 그리드 월드
-
랜덤 워크
-
미로
-
DQN (from Vanilla DQN to Nature DQN)
-
Nature DQN (Tensorflow 2.2)
-
Frame Skipping and Pre-Processing for Deep Q-Networks on Atari 2600 Games
-
Deep Reinforcement Learning Hands-On - Second Edition
-
Double DQN, Dueling DQN, PER (Prioritized Experience Replay)
-
Double DQN (Tensorflow 2.2)
-
Dueling DQN (Tensorflow 2.2)
-
Dueling Double DQN (Tensorflow 2.2)
-
PER + Dueling Double DQN (Tensorflow 2.2)
-
Distributional DQN
-
Policy Gradient & REINFORCE (Monte Carlo Policy Gradient)
-
Deep Deterministic Policy Gradient (DDPG) & Twin Delayed DDPG (TD3)
-
Soft Actor-Critic (SAC)
-
Advantage Actor-Critic (A2C) & Asynchronous Advantage Actor-Critic (A3C)
-
Conservative Policy Improvement & PPO