강화학습 응용 - 학습 유형별 알고리즘 및 응용
모듈 1. 몬테카를로 학습 방법
-
몬테카를로 예측 (01차시)
- 몬테카를로 학습 방법 소개
- 몬테카를로 예측
- 행동 가치 기반 몬테카를로 예측
-
몬테카를로 제어 (02차시)
- 몬테카를로 제어
- 소프트 정책 기반 몬테카를로 제어
-
[실습 1] 몬테카를로 학습 에이전트 개발 (03차시)
- 그리드 월드에서 몬테카를로 학습 에이전트 개발
- 랜덤 워크에서 몬테카를로 학습 에이전트 개발
모듈 2. 시간차 학습 방법
-
시간차 예측 및 추정 (04차시)
- 시간차 예측
- 배치 업데이트
-
[실습 2] 시간차 예측과 몬테카를로 예측 성능 비교 (05차시)
- 랜덤 워크에서 시간차 예측과 몬테카를로 예측 성능 비교
- 그리드 월드에서 시간차 예측을 통한 상태 가치 추정
- 그리드 월드에서 배치 업데이트 기반 시간차 예측을 통한 상태 가치 추정
-
시간차 학습 (06차시)
- SARSA와 Q-Learning
- 기대값 기반 SARSA
-
[실습 3] 시간차 학습 에이전트 개발 (07차시)
- 절벽이 있는 그리드 월드에서 SARSA와 Q-Learning 구현 및 성능 비교
- Epsilon 스케줄링
-
자바스크립트 기반 미로 환경에서 SARSA와 Q-Learning 실험
모듈 3. 계획과 학습
-
모델 기반 학습 (08차시)
- 모델과 계획
- Dyna-Q
-
[실습 4] 모델 기반 학습 에이전트 개발 (09차시)
- 절벽이 있는 그리드 월드에서 Dyna-Q 에이전트 개발
- 미로 찾기 환경에서 Dyna-Q 에이전트 개발
-
다양한 강화학습 기법 (10차시)
- 기대 갱신과 샘플 갱신
- 다양한 강화학습 기법 비교
- 강화학습 성능에 영향을 주는 다양한 요소
모듈 4. 강화학습 게임 에이전트 개발
-
[실습 5] Tic-Tac-Toe 강화학습 환경 구축 (11차시)
- 대전 보드 게임 Tic-Tac-Toe의 이해
- Tic-Tac-Toe 강화학습 환경 개발
- Dummy 에이전트 개발 및 게임 수행
-
[실습 6] Tic-Tac-Toe 강화학습게임 에이전트 개발 및 훈련(12차시)
- Tic-Tac-Toe 게임을 수행하는 Q-Learning 게임 에이전트 개발
- Dummy 에이전트와 대결하는 Q-Learning 에이전트 훈련
- 자기 자신과 대결하는 (Self-Play) Q-Learning 에이전트 훈련