모듈 1. 가치 기반 심층강화학습
-
심층강화학습의 기본 (1차시)
- 심층강화학습의 기본 개념 및 절차
- 심층강화학습의 종류
- [실습 1] 실습 환경 소개
-
Deep Q-Network 알고리즘 (2차시)
- 리플레이 메모리
- 타깃 네트워크
- [실습 2] CartPole-v0 환경에서 Deep Q-Network (DQN) 알고리즘 구현 실습
-
개선된 Deep Q-Network 알고리즘 (3차시)
- 더블 DQN
- 듀얼링 DQN
- 우선순위 DQN
- [실습 3] CartPole-v0 환경에서 다양한 향상된 DQN 알고리즘 성능 비교
- [실습 4] Pong-v0 환경에서 다양한 향상된 DQN 알고리즘 성능 비교
모듈 2. 정책 기반 강화학습
-
정책 그레디언트 (4차시)
- 정책과 정책 목표
- 정책 그레디언트
-
REINFORCE 알고리즘 (5차시)
- 몬테카를로 샘플링 기반 REINFORCE 알고리즘
- [실습 5] CartPole-v0 환경에서 REINFORCE 알고리즘 구현 실습
- [실습 6] Pong-v0 환경에서 REINFORCE 알고리즘 구현 실습
모듈 3. 엑터-크리틱 기반 심층강화학습
-
엑터-크리틱 알고리즘 (6차시)
- 엑터와 크리틱의 이해
- Advantage Actor-Critic (A2C) 알고리즘
- A2C 구현 실습
- [실습 7] Breakout-v0 환경에서 A2C 알고리즘 구현 실습
-
병렬 심층강화학습 (7차시)
- 심층강화학습 병렬화의 이해
- Asynchronous Advantage Actor-Critic (A3C) 알고리즘
- A3C 구현 실습
- [실습 8] Breakout-v0 환경에서 A3C 알고리즘 구현 실습