“Student-professor relationships are based on trust. Acts,
which violate this trust, undermine the educational process.
Your classmates and the professor will not tolerate violations
of academic integrity”
# | Date | 온라인 강의 (E-Learning) | 오프라인/Zoom 실시간 강의 | Notice |
---|---|---|---|---|
01 | 08월 30일(월) |
- 수업 소개 - 인공지능이 주도하는 흥미로운 패러다임 전환: Paradigm Shift - 강화학습 실습 환경 구축 |
파이썬 설치하기
파이썬 패키지 설치하기 Pycharm 설치 및 설정 Windows 10에 Gym 설치 |
|
02 | 09월 02일(목)/06일(월) |
01. 강화 학습의 기본 02. 강화 학습의 절차 및 분류 |
- Q-Learning & DQN의 이해 - I
- FrozenLake & Q-Learning 코드 예제 [실습] |
- Frozen Lake and Dynamic Programming |
03 | 09월 09일(목)/13일(월) |
03. 강화 학습 실습 환경 소개 [실습]
04. 마르코프 결정 과정, 보상 이득 |
- Q-Learning & DQN의 이해 - II
- DQN 코드 예제 - I [실습] |
|
04 | 09월 16일(목)/20일(월) | 05. 정책과 가치 함수 | 20일~22일: 추석 연휴 | |
05 | 09월 23일(목)/27일(월) | 06. 최적 정책과 최적 가치 함수 | - DQN 코드 예제 - II [실습] |
Homework #1
Due Date: 2021년 10월 17일, 23시 59분 |
06 | 09월 30일(목)/10월 04일(월) |
07. 최적 가치 및 최적 정책 산출 실험 [실습]
08. 동적 프로그래밍 기반 정책 평가 및 정책 개선 |
- DQN 코드 예제 - III [실습] | |
07 | 10월 07일(목)/11일(월) | 09. 동적 프로그래밍 기반 정책 반복 및 가치 반복 |
- DQN 코드 예제 - IV [실습]
- 온라인 강의 수업 내용 복습 |
|
08 | 10월 14일(목)/18일(월) | 10. 정책 반복과 가치 반복 알고리즘 구현 및 실험 [실습] |
- 온라인 강의 수업 내용 복습 (대면 수업)
- DQN 모델 로드 및 플레이 |
- DP-PI & DP-VI - SARSA & Q-Learning - Gym Atari 환경 설명 |
10 | 10월 21일(목)/25일(월) |
11. 몬테카를로 예측의 기본 12. 몬테카를로 제어의 기본 |
- GYM ATARI 전처리 (대면 수업)
- PONG-DQN 훈련 및 모델 저장 - PONG-DQN 모델 로드 및 플레이 - Policy Gradient의 이해 - I (대면 수업) |
Homework #2
Due Date: 2021년 11월 7일, 23시 59분 |
11 | 10월 28일(목)/11월 01일(월) |
13. 몬테카를로 학습 에이전트 개발 [실습]
14. 시간차 예측 및 측정 |
- Policy Gradient의 이해 - II (대면 수업)
- REINFORCE 훈련 및 모델 저장 [실습]
- REINFORCE 모델 로드 및 플레이 [실습] |
11월 4일 (목), 14시 ~ 15시 50분 - 오프라인 중간 고사 ([시험 범위] 온라인 강의: 01. 강화 학습의 기본 ~ 14. 시간차 예측 및 측정) |
12 | 11월 04일(목)/08일(월) |
15. 시간차 예측을 통한 가치 추정 [실습]
16. SARSA와 Q-Learning |
- Env. Wrapper & Vectorized Env.의 이해
- Single Toy Env [실습] - Vectorized Toy Envs [실습] |
- 공통 활용
- 정책 모델, 가치 모델 - 버퍼 |
13 | 11월 11일(목)/15일(월) | 17. 시간차 학습 에이전트 개발 [실습] |
- A2C (Advantage Actor-Critic)의 이해 - A2C 훈련 및 모델 저장 [실습] - A2C 모델 로드 및 플레이 [실습] |
|
14 | 11월 18일(목)/22일(월) | 18. 모델 기반 학습 |
- A2C 훈련 및 모델 저장 [실습]
- A2C 모델 로드 및 플레이 [실습] |
|
15 | 11월 25일(목)/29일(월) |
19. 모델 기반 학습 에이전트 개발 [실습]
20. 다양한 강화 학습 기법 |
- Tic-Tac-Toe 강화 학습 부연 설명 |
Homework #3 (기말고사 대치)
Due Date: 2021년 12월 12일 (일요일), 23시 59분 |
16 | 12월 02일(목)/06일(월) | 21. Tic-Tac-Toe 강화 학습 환경 구축 [실습] | - Tic-Tac-Toe 강화 학습 부연 설명 (종강) | |
17 | 12월 09일(목) | 22. Tic-Tac-Toe 강화 학습 게임 에이전트 개발 및 훈련 [실습] | - |