“Student-professor relationships are based on trust. Acts,
which violate this trust, undermine the educational process.
Your classmates and the professor will not tolerate violations
of academic integrity”
# | Date | 오프라인(강의실) 강의 (화요일) | 온라인 강의 (E-Learning) (전주 목요일) | 참고자료/공지사항 |
---|---|---|---|---|
01 | 08월 30일(화)/9월 01일(목) |
- 수업 소개 - 인공지능이 주도하는 흥미로운 패러다임 전환: Paradigm Shift |
- 강화학습 실습 환경 구축
01. 강화 학습의 기본 02. 강화 학습의 절차 및 분류 |
|
02 | 09월 06일(화)/08일(목) | - 강화 학습 기본 다지기 (Part 1) |
03. 강화 학습 실습 환경 소개 [실습]
04. 마르코프 결정 과정, 보상 이득 |
|
03 | 09월 13일(화)/15일(목) | - 강화 학습 기본 다지기 (Part 2) | 05. 정책과 가치 함수 | |
04 | 09월 20일(화)/22일(목) | - 강화 학습 기본 다지기 (Part 3) | 06. 최적 정책과 최적 가치 함수 | |
05 | 09월 27일(화)/29일(목) | - 강화 학습 기본 다지기 (Part 4) |
07. 최적 가치 및 최적 정책 산출 실험 [실습]
08. 동적 프로그래밍 기반 정책 평가 및 정책 개선 |
Homework #1
Due Date: 2022년 10월 10일(월요일), 23시 59분 |
06 | 10월 04일(화)/06일(목) | - DQN의 이해 - I | 09. 동적 프로그래밍 기반 정책 반복 및 가치 반복 | |
07 | 10월 11일(화)/13일(목) | - DQN의 이해 - II [실습] | 10. 정책 반복과 가치 반복 알고리즘 구현 및 실험 [실습] | |
08 | 10월 18일(화)/20일(목) | - DQN 모델 로드 및 플레이 |
01. 몬테카를로 예측의 기본 02. 몬테카를로 제어의 기본 |
|
10 | 10월 25일(화)/27일(목) | - DQN을 활용한 GYM ATARI/PONG 훈련 전처리 |
03. 몬테카를로 학습 에이전트 개발 [실습]
04. 시간차 예측 및 측정 |
Homework #2
Due Date: 2022년 11월 12일 (토요일), 23시 59분 |
11 | 11월 01일(화)/03일(목) | - DQN을 활용한 GYM ATARI/PONG 훈련 |
05. 시간차 예측을 통한 가치 추정 [실습]
06. SARSA와 Q-Learning |
11월 3일 (목), 16시 ~ 17시 50분 - 오프라인 중간 고사 ([시험 범위] 온라인 강의: 11월 1일까지 학습한 오프라인/온라인 수업 강의 내용) |
12 | 11월 08일(화)/10일(목) |
- Policy Gradient 및 Actor-Critic의 이해 - I
- RAY+RLLIB |
07. 시간차 학습 에이전트 개발 [실습] | |
13 | 11월 15일(화)/17일(목) | - Policy Gradient 및 Actor-Critic의 이해 - II | 08. 모델 기반 학습 | |
14 | 11월 22일(화)/24일(목) | - Policy Gradient 및 Actor-Critic의 실습 |
09. 모델 기반 학습 에이전트 개발 [실습]
10. 다양한 강화 학습 기법 |
Homework #3
Due Date: 2022년 12월 11일 (일요일), 23시 59분 |
15 | 11월 29일(화)/12월 01일(목) | - Tic-Tac-Toe 강화 학습 부연 설명 | 11. Tic-Tac-Toe 강화 학습 환경 구축 [실습] | |
16 | 12월 06일(화)/08일(목) | - Tic-Tac-Toe 강화 학습 부연 설명 (종강) | 12. Tic-Tac-Toe 강화 학습 게임 에이전트 개발 및 훈련 [실습] |