Reinforcement Learning

Deep Reinforcement Learning (Deep RL)

  1. Introduction to Reinforcement Learning
  2. Multi-Armed Bandit
    • 멀티암드 관련 코드
  3. Markov Decision Process
    • 마르코프 결정 과정 관련 코드 (환경: 그리드 월드)
  4. Dynamic Programming
    • 정책 평가(Policy Evaluation) 코드 (환경: 그리드 월드)
    • 정책 반복(Policy Iteration) 코드 (환경: 그리드 월드)
    • 가치 반복(Value Iteration) 코드 (환경: 그리드 월드)
    • 동적 프로그래밍의 정책 반복 및 가치 반복 실험 - 자바스크립트 버전
  5. Monte Carlo Method
    • 몬테카를로 예측(Prediction) 코드 (환경: 그리드 월드)
    • 행동 가치의 몬테카를로 예측(Prediction) 코드 (환경: 그리드 월드)
    • 탐험적 시작 기반 몬테카를로 제어(Control) 코드 (환경: 그리드 월드)
    • 소프트 정책 기반 몬테카를로 제어(Control) 코드 (환경: 그리드 월드)
    • Off-policy 몬테카를로 제어(Control) 코드 (환경: 그리드 월드)
  6. Temporal-Difference Learning
    • 시간차 예측 (환경: 랜덤 워크)
    • 시간차 예측 (환경: 그리드 월드)
    • 시간차 제어 (환경: 절벽이 있는 그리드 월드)
    • SARSA와 Q-Learning 실험 - 자바스크립트 버전
  7. n-step TD Learning
  8. Planning & Learning
    • Dyna-Q, Dyna-Q+, Prioritized Dyna-Q (환경: 미로)
  9. 실습을 위한 RL 환경
    • 그리드 월드/절벽이 있는 그리드 월드
    • 랜덤 워크
    • 미로
  1. DQN (from Vanilla DQN to Nature DQN)
    • Nature DQN (Tensorflow 2.2)
    • Frame Skipping and Pre-Processing for Deep Q-Networks on Atari 2600 Games
    • Deep Reinforcement Learning Hands-On - Second Edition
  2. Double DQN, Dueling DQN, PER (Prioritized Experience Replay)
    • Double DQN (Tensorflow 2.2)
    • Dueling DQN (Tensorflow 2.2)
    • Dueling Double DQN (Tensorflow 2.2)
    • PER + Dueling Double DQN (Tensorflow 2.2)
  3. Distributional DQN

  1. REINFORCE (Monte Carlo Policy Gradient)
  1. Advantage Actor-Critic (A2C)
  2. Asynchronous Advantage Actor-Critic (A3C)
  3. TRPO & PPO
  1. Probability, Bayes’ theorem
  2. Information, Entropy, Cross Entropy, KL Divergence, Likelihood, MLE, and MAP

Laboratory Partners