AI Application & Practice

AI Application & Practice (인공지능 응용 및 실습, Fall Semester, 2022 – CSE544)


“Student-professor relationships are based on trust. Acts, which violate this trust, undermine the educational process. Your classmates and the professor will not tolerate violations of academic integrity”


1. Course Schedule & Lecture Notes


실습 내용 Github 리포지토리:
RAY+RLLIB 실습 내용 Github 리포지토리:
온라인 강의 (E-Learning) 콘텐츠 강의 자료 원본 - 1 (01. 강화 학습의 기본 ~ 10. 정책 반복과 가치 반복 알고리즘 구현 및 실험 [실습]): Click
온라인 강의 (E-Learning) 콘텐츠 강의 자료 원본 - 2 (01. 몬테카를로 예측의 기본 ~ 12. Tic-Tac-Toe 강화 학습 게임 에이전트 개발 및 훈련 [실습]): Click

# Date 오프라인(강의실) 강의 (화요일) 온라인 강의 (E-Learning) (전주 목요일) 참고자료/공지사항
01 08월 30일(화)/9월 01일(목) - 수업 소개
- 인공지능이 주도하는 흥미로운 패러다임 전환: Paradigm Shift
- 강화학습 실습 환경 구축
01. 강화 학습의 기본
02. 강화 학습의 절차 및 분류
  1. Anaconda 활용 파이썬 설치
  2. 파이썬 패키지 설치
  3. 통합 개발 환경
02 09월 06일(화)/08일(목) - 강화 학습 기본 다지기 (Part 1) 03. 강화 학습 실습 환경 소개 [실습]
04. 마르코프 결정 과정, 보상 이득
  1. 모든 수정 사항 롤백하기
    : git reset --hard
  2. 원격 저장소의 최신 내용을 로컬 저장소로 다운 및 병합
    : git pull
03 09월 13일(화)/15일(목) - 강화 학습 기본 다지기 (Part 2) 05. 정책과 가치 함수
04 09월 20일(화)/22일(목) - 강화 학습 기본 다지기 (Part 3) 06. 최적 정책과 최적 가치 함수
  1. 정책 반복(Policy Iteration) 및 가치 반복(Value Iteration)의 웹 기반 체험
05 09월 27일(화)/29일(목) - 강화 학습 기본 다지기 (Part 4) 07. 최적 가치 및 최적 정책 산출 실험 [실습]
08. 동적 프로그래밍 기반 정책 평가 및 정책 개선
Homework #1
Due Date: 2022년 10월 10일(월요일), 23시 59분
06 10월 04일(화)/06일(목) - DQN의 이해 - I 09. 동적 프로그래밍 기반 정책 반복 및 가치 반복  
07 10월 11일(화)/13일(목) - DQN의 이해 - II [실습] 10. 정책 반복과 가치 반복 알고리즘 구현 및 실험 [실습]  
08 10월 18일(화)/20일(목) - DQN 모델 로드 및 플레이 01. 몬테카를로 예측의 기본
02. 몬테카를로 제어의 기본
10 10월 25일(화)/27일(목) - DQN을 활용한 GYM ATARI/PONG 훈련 전처리 03. 몬테카를로 학습 에이전트 개발 [실습]
04. 시간차 예측 및 측정
Homework #2
Due Date: 2022년 11월 12일 (토요일), 23시 59분
11 11월 01일(화)/03일(목) - DQN을 활용한 GYM ATARI/PONG 훈련 05. 시간차 예측을 통한 가치 추정 [실습]
06. SARSA와 Q-Learning
11월 3일 (목), 16시 ~ 17시 50분 - 오프라인 중간 고사 ([시험 범위] 온라인 강의: 11월 1일까지 학습한 오프라인/온라인 수업 강의 내용)
12 11월 08일(화)/10일(목) - Policy Gradient 및 Actor-Critic의 이해 - I
- RAY+RLLIB
07. 시간차 학습 에이전트 개발 [실습]
13 11월 15일(화)/17일(목) - Policy Gradient 및 Actor-Critic의 이해 - II 08. 모델 기반 학습  
14 11월 22일(화)/24일(목) - Policy Gradient 및 Actor-Critic의 실습 09. 모델 기반 학습 에이전트 개발 [실습]
10. 다양한 강화 학습 기법
Homework #3
Due Date: 2022년 12월 11일 (일요일), 23시 59분
15 11월 29일(화)/12월 01일(목) - Tic-Tac-Toe 강화 학습 부연 설명 11. Tic-Tac-Toe 강화 학습 환경 구축 [실습]
16 12월 06일(화)/08일(목) - Tic-Tac-Toe 강화 학습 부연 설명 (종강) 12. Tic-Tac-Toe 강화 학습 게임 에이전트 개발 및 훈련 [실습]  

2. Course Information


  • Lecturer: 한연희 교수 (Rm. 2공학관 423호, Email: yhhan@koreatech.ac.kr)
  • Classes: 화요일 (8, 9교시, 16:00-18:00), 목요일 (8, 9 교시, 16:00-18:00)
  • Lecture Room: 2공학관 409호
  • 수업조교(TA): 석영준 석사과정 (Email: dsb04163@koreatech.ac.kr)
  • Course Board(숙제 제출 사이트): http://el2.koreatech.ac.kr
  • Prerequisites: 스크립트프로그래밍, 알고리즘및실습, 인공지능기초및실습, 기계학습및실습

3. E-Learning Courses


  • 강화 학습 기초 - 기본 원리 및 이론 [Click]
  • 강화 학습 응용 - 학습 유형별 알고리즘 및 응용 [Click]

4. References


  • 주교재: 홈페이지에서 제공
  • 부교재: Reinforcement Learning: An Introduction R. Sutton, and A. Barto. The MIT Press, Second edition, (2018)

5. Logistics


  • Attendance – one class absence will result in the deduction of two points out of 100 points. Five absences will not result in ten points deduction, but “failure” (i.e., grade ‘F’) in this course.
  • Exam – there will be midterm exam and final exam for the evaluation of the knowledge learned from the class.
  • Homework – much intensive homework will be set. Any cheating (or copying) will result in grade ‘F’.

5. Evaluation


  • Attendance (10%), Quiz (10%), Homework (20%), Midterm exam (40%), Final term project (20%)
Laboratory Partners