Page 1 of 1

[RL] 정책 경사

이름

*

교안에서 REINFORCE 알고리즘의 구현 방식은 MAB 문제에서 어떤 방법과 가장 비슷합니까?

*

교안에서 REINFORCE 알고리즘의 구현 방식은 MAB 문제에서 어떤 방법과 가장 비슷합니까?

A

입실론 탐욕법

B

UCB

C

소프트맥스 전략

D

톰슨 샘플링

정책 경사 정리의 가장 큰 함의는 무엇입니까?

*

REINFORCE 알고리즘의 핵심 아이디어는 무엇입니까?

*

REINFORCE는 제어 문제의 풀이법 중 어떤 것과 가장 비슷합니까?

*

REINFORCE는 제어 문제의 풀이법 중 어떤 것과 가장 비슷합니까?

A

MC 제어

B

SARSA

C

Q-Learning

D

Dyna-Q