한국기술교육대학교 LINK 연구실 위치

AI Application & Practice (인공지능 응용 및 실습, Fall Semester, 2021 – CSE544)

“Student-professor relationships are based on trust. Acts, which violate this trust, undermine the educational process. Your classmates and the professor will not tolerate violations of academic integrity”

1. Course Schedule & Lecture Notes

온라인 강의 (E-Learning) 콘텐츠 학습 기간 및 출석 인정 날짜: Click
온라인 강의 (E-Learning) 콘텐츠 강의 자료: Click
온라인 강의 (E-Learning) 콘텐츠 강의 자료 원본 - 1: Click, 온라인 강의 (E-Learning) 콘텐츠 강의 자료 원본 - 2: Click

#	Date	온라인 강의 (E-Learning)	오프라인/Zoom 실시간 강의	Notice
01	08월 30일(월)		- 수업 소개 - 인공지능이 주도하는 흥미로운 패러다임 전환: Paradigm Shift - 강화학습 실습 환경 구축	파이썬 설치하기 파이썬 패키지 설치하기 Pycharm 설치 및 설정 Windows 10에 Gym 설치 - OpenAI Gym Docs
02	09월 02일(목)/06일(월)	01. 강화 학습의 기본 02. 강화 학습의 절차 및 분류	- Q-Learning & DQN의 이해 - I - FrozenLake & Q-Learning 코드 예제 [실습]	- Frozen Lake and Dynamic Programming
03	09월 09일(목)/13일(월)	03. 강화 학습 실습 환경 소개 [실습] 04. 마르코프 결정 과정, 보상 이득	- Q-Learning & DQN의 이해 - II - DQN 코드 예제 - I [실습]
04	09월 16일(목)/20일(월)	05. 정책과 가치 함수		20일~22일: 추석 연휴
05	09월 23일(목)/27일(월)	06. 최적 정책과 최적 가치 함수	- DQN 코드 예제 - II [실습]	Homework #1 Due Date: 2021년 10월 17일, 23시 59분
06	09월 30일(목)/10월 04일(월)	07. 최적 가치 및 최적 정책 산출 실험 [실습] 08. 동적 프로그래밍 기반 정책 평가 및 정책 개선	- DQN 코드 예제 - III [실습]
07	10월 07일(목)/11일(월)	09. 동적 프로그래밍 기반 정책 반복 및 가치 반복	- DQN 코드 예제 - IV [실습] - 온라인 강의 수업 내용 복습
08	10월 14일(목)/18일(월)	10. 정책 반복과 가치 반복 알고리즘 구현 및 실험 [실습]	- 온라인 강의 수업 내용 복습 (대면 수업) - DQN 모델 로드 및 플레이	- DP-PI & DP-VI - SARSA & Q-Learning - Gym Atari 환경 설명
10	10월 21일(목)/25일(월)	11. 몬테카를로 예측의 기본 12. 몬테카를로 제어의 기본	- GYM ATARI 전처리 (대면 수업) - PONG-DQN 훈련 및 모델 저장 - PONG-DQN 모델 로드 및 플레이 - Policy Gradient의 이해 - I (대면 수업)	Homework #2 Due Date: 2021년 11월 7일, 23시 59분
11	10월 28일(목)/11월 01일(월)	13. 몬테카를로 학습 에이전트 개발 [실습] 14. 시간차 예측 및 측정	- Policy Gradient의 이해 - II (대면 수업) - REINFORCE 훈련 및 모델 저장 [실습] - REINFORCE 모델 로드 및 플레이 [실습]	11월 4일 (목), 14시 ~ 15시 50분 - 오프라인 중간 고사 ([시험 범위] 온라인 강의: 01. 강화 학습의 기본 ~ 14. 시간차 예측 및 측정)
12	11월 04일(목)/08일(월)	15. 시간차 예측을 통한 가치 추정 [실습] 16. SARSA와 Q-Learning	- Env. Wrapper & Vectorized Env.의 이해 - Single Toy Env [실습] - Vectorized Toy Envs [실습]	- 공통 활용 - 정책 모델, 가치 모델 - 버퍼
13	11월 11일(목)/15일(월)	17. 시간차 학습 에이전트 개발 [실습]	- A2C (Advantage Actor-Critic)의 이해 - A2C 훈련 및 모델 저장 [실습] - A2C 모델 로드 및 플레이 [실습]
14	11월 18일(목)/22일(월)	18. 모델 기반 학습	- A2C 훈련 및 모델 저장 [실습] - A2C 모델 로드 및 플레이 [실습]
15	11월 25일(목)/29일(월)	19. 모델 기반 학습 에이전트 개발 [실습] 20. 다양한 강화 학습 기법	- Tic-Tac-Toe 강화 학습 부연 설명	Homework #3 (기말고사 대치) Due Date: 2021년 12월 12일 (일요일), 23시 59분
16	12월 02일(목)/06일(월)	21. Tic-Tac-Toe 강화 학습 환경 구축 [실습]	- Tic-Tac-Toe 강화 학습 부연 설명 (종강)
17	12월 09일(목)	22. Tic-Tac-Toe 강화 학습 게임 에이전트 개발 및 훈련 [실습]	-

2. Course Information

Lecturer: 한연희 교수 (Rm. 2공학관 423호, Email: yhhan@koreatech.ac.kr)
Classes: 월요일 (16:00-18:00), 목요일 (14:00-16:00)
Lecture Room: 2공학관 408호
수업조교(TA): 최호빈 박사과정 (Email: chb3350@koreatech.ac.kr)
Course Board(숙제 제출 사이트): http://el.koreatech.ac.kr
Prerequisites: 스크립트프로그래밍, 알고리즘및실습, 인공지능기초및실습, 기계학습및실습

3. E-Learning Courses

강화 학습 기초 - 기본 원리 및 이론 [Click]
강화 학습 응용 - 학습 유형별 알고리즘 및 응용 [Click]

4. References

주교재: 홈페이지에서 제공
부교재: Reinforcement Learning: An Introduction R. Sutton, and A. Barto. The MIT Press, Second edition, (2018)

5. Logistics

Attendance – one class absence will result in the deduction of two points out of 100 points. Five absences will not result in ten points deduction, but “failure” (i.e., grade ‘F’) in this course.
Exam – there will be midterm exam and final exam for the evaluation of the knowledge learned from the class.
Homework – much intensive homework will be set. Any cheating (or copying) will result in grade ‘F’.

5. Evaluation

Attendance (10%), Quiz (10%), Homework (20%), Midterm exam (30%), Final exam (30%)

LINK@KOREATECH