메인메뉴로 이동 본문으로 이동

교육일정

컨텐츠 내용

  1. 수강신청
  2. 과정정보

텐서플로우 기반 머신러닝(강화학습)

텐서플로우 기반 머신러닝(강화학습) 과정정보
과정명 텐서플로우 기반 머신러닝(강화학습)
년도/차수 2019년 / 1차
교육기간 2019.07.22 - 2019.07.24
신청기간 2019.01.02 - 2019.07.17
교육시간 21.00시간
교육인원 15명
교육비 840,000원  
환급안내 사업주지원
강의목차
차수 신청기간 교육기간 정원 교육비 교육장소 상태 상세보기
과정소개

슬라이드1.PNG

 

슬라이드2.PNG

 

슬라이드3.PNG

 

슬라이드4.PNG

과정 담당자
담당자명 : 전유진 / 연락처 :
강의목차
학습일 / 시간 9:00
- 10:00
10:00
- 11:00
11:00
- 12:00
12:00
- 13:00
13:00
- 14:00
14:00
- 15:00
15:00
- 16:00
16:00
- 17:00
17:00
- 18:00
18:00
- 19:00
2019.07.22 (월)
1교시 09:00 - 12:30

강화학습 개요 및 텐서플로우 소개

 - 머신러닝 리뷰 및 소개

 - Markov Decision Processes

 - 딥러닝 프레임워크 텐스플로우 소개

 - 라이브러리 설치 및 환경 설정

 - 예제를 통한 텐서플로우 사용법 익히기

2교시 13:30 - 17:00

강화학습의 이론적 기반 : MDP

 - 강화학습의 핵심, Bellman Equation

 - 가치 기반 알고리즘: Value Iteration

 - 정책 기반 알고리즘: Policy Iteration

 - Gridworld 예제에 Value Iteration 적용 실습

 - Gridworld 예제에 Policy Iteration 적용 실습

2019.07.23 (화)
3교시 09:00 - 12:30

고전 강화학습 : Q-Learning

 - Dynamic Programming의 한계

 - Q-Learning / SARSA

 - SARSA와 Q-Learning 적용 및 비교 실습

강화학습과 딥러닝의 만남

 - 고전 강화학습 알고리즘의 한계

 - Double Q-Learning과 DDQN

 - OpenAI gym의 소개와 Cartpole 예제 실습

4교시 13:30 - 17:00

정책기반의 강화학습

 - Policy gradient의 이론

 - 기본적인 알고리즘, REINFORCE

 - 최적화 관점에서 강화 학습: TRPO, PPO

 - REINFORCE 및 PPO 알고리즘 적용 실습

2019.07.24 (수)
5교시 09:00 - 12:30

Actor-Critic기반의 강화학습 알고리즘

 - Actor-Critic 이론 소개

 - Deep Deterministic Policy Gradient

 - DDPG 알고리즘 적용 실습
실용적 강화학습 알고리즘

 - Reward Shaping 방법론  

 - Softmax 분포, Sparsemax 분포 실습

 - Thomson Sampling, Bayes 최적화 분포 실습

 - 여러 가지 탐색 방법의 수렴 속도 비교

6교시 13:30 - 17:00

역강화학습

 - 역강화 학습 소개

 - 최대 엔트로피 역강화 학습

 - 최대 마진 계획법

 - 역강화 학습과 GAN: GAIL

 - Maximum Entropy IRL 적용 실습  

 - MountainCar 예제에 GAIL 적용

강의목차
교시 일시 강의명
1교시 2019.07.22 09:00 - 12:30 강화학습 개요 및 텐서플로우 소개
2교시 2019.07.22 13:30 - 17:00 강화학습의 이론적 기반 : MDP
3교시 2019.07.23 09:00 - 12:30 고전 강화학습 : Q-Learning / 강화학습과 딥러닝의 만남
4교시 2019.07.23 13:30 - 17:00 정책기반의 강화학습
5교시 2019.07.24 09:00 - 12:30 Actor-Critic기반의 강화학습 알고리즘 / 실용적 강화학습 알고리즘
6교시 2019.07.24 13:30 - 17:00 역강화학습