AI Application & Practice

AI Application & Practice (인공지능 응용 및 실습, Fall Semester, 2022 – CSE544)


“Student-professor relationships are based on trust. Acts, which violate this trust, undermine the educational process. Your classmates and the professor will not tolerate violations of academic integrity”


1. Course Schedule & Lecture Notes


온라인 강의 (E-Learning) 콘텐츠 학습 기간 및 출석 인정 날짜: Click
온라인 강의 (E-Learning) 콘텐츠 강의 자료: Click
온라인 강의 (E-Learning) 콘텐츠 강의 자료 원본 - 1: Click, 온라인 강의 (E-Learning) 콘텐츠 강의 자료 원본 - 2: Click

# Date 온라인 강의 (E-Learning) (화요일) 오프라인/Zoom 실시간 강의 (전주 목요일) Notice
01 08월 30일(화)/9월 01일(목) - 수업 소개
- 인공지능이 주도하는 흥미로운 패러다임 전환: Paradigm Shift
- 강화학습 실습 환경 구축 파이썬 설치하기
파이썬 패키지 설치하기
Pycharm 설치 및 설정 Windows 10에 Gym 설치
02 09월 01일(목)/06일(화) 01. 강화 학습의 기본
02. 강화 학습의 절차 및 분류
- Q-Learning & DQN의 이해 - I
- FrozenLake & Q-Learning 코드 예제 [실습]
- Frozen Lake and Dynamic Programming
03 09월 08일(목)/13일(화) 03. 강화 학습 실습 환경 소개 [실습]
04. 마르코프 결정 과정, 보상 이득
- Q-Learning & DQN의 이해 - II
04 09월 15일(목)/20일(화) 05. 정책과 가치 함수 - DQN 코드 예제 - I [실습] 20일~22일: 추석 연휴
05 09월 22일(목)/27일(화) 06. 최적 정책과 최적 가치 함수 - DQN 코드 예제 - II [실습] Homework #1
Due Date: 2021년 10월 17일, 23시 59분
06 09월 29일(목)/10월 04일(화) 07. 최적 가치 및 최적 정책 산출 실험 [실습]
08. 동적 프로그래밍 기반 정책 평가 및 정책 개선
- DQN 코드 예제 - III [실습]  
07 10월 06일(목)/11일(화) 09. 동적 프로그래밍 기반 정책 반복 및 가치 반복 - DQN 코드 예제 - IV [실습]
- 온라인 강의 수업 내용 복습
 
08 10월 13일(목)/18일(화) 10. 정책 반복과 가치 반복 알고리즘 구현 및 실험 [실습] - 온라인 강의 수업 내용 복습 (대면 수업)
- DQN 모델 로드 및 플레이
- DP-PI & DP-VI
- SARSA & Q-Learning
- Gym Atari 환경 설명
10 10월 20일(목)/25일(화) 11. 몬테카를로 예측의 기본
12. 몬테카를로 제어의 기본
- GYM ATARI 전처리 (대면 수업)
- PONG-DQN 훈련 및 모델 저장
- PONG-DQN 모델 로드 및 플레이
- Policy Gradient의 이해 - I (대면 수업)
Homework #2
Due Date: 2021년 11월 7일, 23시 59분
11 10월 27일(목)/11월 01일(화) 13. 몬테카를로 학습 에이전트 개발 [실습]
14. 시간차 예측 및 측정
- Policy Gradient의 이해 - II (대면 수업) - REINFORCE 훈련 및 모델 저장 [실습]
- REINFORCE 모델 로드 및 플레이 [실습]
11월 4일 (목), 14시 ~ 15시 50분 - 오프라인 중간 고사 ([시험 범위] 온라인 강의: 01. 강화 학습의 기본 ~ 14. 시간차 예측 및 측정)
12 11월 03일(목)/08일(화) 15. 시간차 예측을 통한 가치 추정 [실습]
16. SARSA와 Q-Learning
- Env. Wrapper & Vectorized Env.의 이해
- Single Toy Env [실습]
- Vectorized Toy Envs [실습]
- 공통 활용
- 정책 모델, 가치 모델
- 버퍼
13 11월 10일(목)/15일(화) 17. 시간차 학습 에이전트 개발 [실습] - A2C (Advantage Actor-Critic)의 이해

- A2C 훈련 및 모델 저장 [실습]
- A2C 모델 로드 및 플레이 [실습]
 
14 11월 17일(목)/22일(화) 18. 모델 기반 학습 - A2C 훈련 및 모델 저장 [실습]
- A2C 모델 로드 및 플레이 [실습]
 
15 11월 24일(목)/29일(월) 19. 모델 기반 학습 에이전트 개발 [실습]
20. 다양한 강화 학습 기법
- Tic-Tac-Toe 강화 학습 부연 설명 Homework #3 (기말고사 대치)
Due Date: 2021년 12월 12일 (일요일), 23시 59분
16 12월 01일(목)/06일(화) 21. Tic-Tac-Toe 강화 학습 환경 구축 [실습] - Tic-Tac-Toe 강화 학습 부연 설명 (종강)  
17 12월 08일(목) 22. Tic-Tac-Toe 강화 학습 게임 에이전트 개발 및 훈련 [실습] -  

2. Course Information


  • Lecturer: 한연희 교수 (Rm. 2공학관 423호, Email: yhhan@koreatech.ac.kr)
  • Classes: 화요일 (8, 9교시, 16:00-18:00), 목요일 (8, 9 교시, 16:00-18:00)
  • Lecture Room: 2공학관 409호
  • 수업조교(TA): 석영준 석사과정 (Email: dsb04163@koreatech.ac.kr)
  • Course Board(숙제 제출 사이트): http://el.koreatech.ac.kr
  • Prerequisites: 스크립트프로그래밍, 알고리즘및실습, 인공지능기초및실습, 기계학습및실습

3. E-Learning Courses


  • 강화 학습 기초 - 기본 원리 및 이론 [Click]
  • 강화 학습 응용 - 학습 유형별 알고리즘 및 응용 [Click]

4. References


  • 주교재: 홈페이지에서 제공
  • 부교재: Reinforcement Learning: An Introduction R. Sutton, and A. Barto. The MIT Press, Second edition, (2018)

5. Logistics


  • Attendance – one class absence will result in the deduction of two points out of 100 points. Five absences will not result in ten points deduction, but “failure” (i.e., grade ‘F’) in this course.
  • Exam – there will be midterm exam and final exam for the evaluation of the knowledge learned from the class.
  • Homework – much intensive homework will be set. Any cheating (or copying) will result in grade ‘F’.

5. Evaluation


  • Attendance (10%), Quiz (10%), Homework (20%), Midterm exam (30%), Final exam (30%)
Laboratory Partners