Courses

딥러닝 심화 - 강화학습 (기본)

    모듈 1. 강화학습 개요

  1. 강화학습의 기본 (1차시)
    1. 강화학습의 기본 개념
    2. 강화학습의 발전 과정
    3. 강화학습의 기본 요소
  2. 강화학습의 절차 및 분류 (2차시)
    1. 정책 및 가치의 기본 개념
    2. 강화학습 수행 절차
    3. 강화학습 분류
  3. [실습 1] 강화 학습 실습 환경 소개 (3차시)
    1. 실습 환경 구축
    2. 그리드 월드 환경
    3. 랜덤 워크 환경
    4. 미로 환경
    5. Tic-Tac-Toe 게임 환경

    모듈 2. 마르코프 결정 과정, 정책, 가치

  1. 마르코프 결정 과정, 보상, 이득 (4차시)
    1. 마르코프 과정
    2. 마르코프 보상 과정
    3. 마르코프 결정 과정
  2. 정책과 가치 함수 (5차시)
    1. 에이전트 정책
    2. 상태 가치 및 행동 가치 함수
  3. 최적 정책과 최적 가치 함수 (6차시)
    1. 최적 정책 및 최적 가치 함수
    2. 최적 정책 계산의 어려움
  4. [실습 2] 최적 가치 및 최적 정책 산출 실험 (7차시)
    1. 그리드 월드에서 각 상태별 가치 산출
    2. 그리드 월드에서 각 상태별 최적 가치 및 정책 산출

    모듈 3. 동적 프로그래밍

  1. 동적 프로그래밍 기반 정책 평가 및 정책 개선 (8차시)
    1. 동적 프로그래밍 소개
    2. 정책 평가
    3. 정책 개선
  2. 동적 프로그래밍 기반 정책 반복 및 가치 반복 (9차시)
    1. 정책 반복과 가치 반복
    2. 일반화된 정책 반복
    3. 동적 프로그래밍의 한계
  3. [실습 3] 정책 반복과 가치 반복 알고리즘 구현 및 실험 (10차시)
    1. 그리드 월드에서 정책 반복과 가치 반복 알고리즘 개발
    2. 자바스크립트 기반 미로 환경에서 정책 반복 및 가치 반복 실험

    모듈 4. 몬테카를로 학습 방법

  1. 몬테카를로 예측 (11차시)
    1. 몬테카를로 학습 방법 소개
    2. 몬테카를로 예측
    3. 행동 가치 기반 몬테카를로 예측
  2. 몬테카를로 제어 (12차시)
    1. 몬테카를로 제어
    2. 소프트 정책 기반 몬테카를로 제어
  3. [실습 4] 몬테카를로 학습 에이전트 개발 (13차시)
    1. 그리드 월드에서 몬테카를로 학습 에이전트 개발
    2. 랜덤 워크에서 몬테카를로 학습 에이전트 개발

    모듈 5. 시간차 학습 방법

  1. 시간차 예측 및 추정 (14차시)
    1. 시간차 예측
    2. 배치 업데이트
  2. [실습 5] 시간차 예측과 몬테카를로 예측 성능 비교 (15차시)
    1. 그리드 월드에서 시간차 예측과 몬테카를로 예측 성능 비교
    2. 랜덤 워크에서 시간차 예측과 몬테카를로 예측 성능 비교
  3. SARSA와 Q-Learning (16차시)
    1. SARSA
    2. Q-Learning
    3. n-스텝 시간차 예측
  4. [실습 6] 다양한 시간차 학습 구현 및 실험 (17차시)
    1. 절벽이 있는 그리드 월드에서 SARSA와 Q-Learning 구현 및 성능 비교
    2. 미로 환경에서 SARSA와 Q-Learning 구현 및 성능 비교
    3. 자바스크립트 기반 미로 환경에서 SARSA와 Q-Learning 실험

    모듈 6. 계획과 학습

  1. 모델 기반 학습 (18차시)
    1. 모델과 계획
    2. Dyna-Q
  2. [실습 7] 모델 기반 학습 에이전트 개발 (19차시)
    1. 절벽이 있는 그리드 월드에서 Dyna-Q 에이전트 개발
    2. 미로 찾기 환경에서 Dyna-Q 에이전트 개발
  3. 다양한 강화학습 기법 (20차시)
    1. 기대 갱신과 샘플 갱신
    2. 다양한 강화학습 기법 비교
    3. 강화학습 성능에 영향을 주는 다양한 요소

    모듈 7. 강화학습 게임 에이전트 개발

  1. [실습 8] 강화학습 환경 구축 (21차시)
    1. 대전 보드 게임 Tic-Tac-Toe의 이해
    2. Tic-Tac-Toe 강화학습 환경 개발
  2. [실습 9] 강화학습 게임 에이전트 구현 (22차시)
    1. 대전 모드 Q-Learning 에이전트 구현
    2. Q-Learning을 활용한 Tic-Tac-Toe 강화학습 에이전트 구현 및 실험

Laboratory Partners