Courses

강화학습 기초 - 기본 원리 및 이론

    모듈 1. 강화학습 개요

  1. 강화학습의 기본 (1차시)
    1. 강화학습의 기본 개념
    2. 강화학습의 발전 과정
    3. 강화학습의 기본 요소
  2. 강화학습의 절차 및 분류 (2차시)
    1. 정책 및 가치의 기본 개념
    2. 강화학습 수행 절차
    3. 강화학습 분류
  3. [실습 1] 강화 학습 실습 환경 소개 (3차시)
    1. 실습 환경 구축
    2. 그리드 월드 환경
    3. 랜덤 워크 환경
    4. 미로 환경

    모듈 2. 마르코프 결정 과정, 정책, 가치

  1. 마르코프 결정 과정, 보상, 이득 (4차시)
    1. 에이전트와 환경
    2. 마르코프 결정 과정
    3. 보상과 이득(누적 보상)
  2. 정책과 가치 함수 (5차시)
    1. 에이전트 정책
    2. 상태 가치 및 행동 가치 함수
  3. 최적 정책과 최적 가치 함수 (6차시)
    1. 최적 정책 및 최적 가치 함수
    2. 최적 정책 계산의 어려움
  4. [실습 2] 최적 가치 및 최적 정책 산출 실험 (7차시)
    1. 그리드 월드에서 각 상태별 가치 산출
    2. 그리드 월드에서 각 상태별 최적 가치 및 정책 산출

    모듈 3. 동적 프로그래밍

  1. 동적 프로그래밍 기반 정책 평가 및 정책 개선 (8차시)
    1. 동적 프로그래밍 소개
    2. 정책 평가
    3. 정책 개선
  2. 동적 프로그래밍 기반 정책 반복 및 가치 반복 (9차시)
    1. 정책 반복과 가치 반복
    2. 일반화된 정책 반복
    3. 동적 프로그래밍의 한계
  3. [실습 3] 정책 반복과 가치 반복 알고리즘 구현 및 실험 (10차시)
    1. 그리드 월드에서 정책 반복과 가치 반복 알고리즘 개발
    2. 자바스크립트 기반 미로 환경에서 정책 반복 및 가치 반복 실험

Laboratory Partners