Page 1 of 1
[RL] 정책 경사
이름
*
교안에서 REINFORCE 알고리즘의 구현 방식은 MAB 문제에서 어떤 방법과 가장 비슷합니까?
*
교안에서 REINFORCE 알고리즘의 구현 방식은 MAB 문제에서 어떤 방법과 가장 비슷합니까?
A
입실론 탐욕법
B
UCB
C
소프트맥스 전략
D
톰슨 샘플링
정책 경사 정리의 가장 큰 함의는 무엇입니까?
*
REINFORCE 알고리즘의 핵심 아이디어는 무엇입니까?
*
REINFORCE는 제어 문제의 풀이법 중 어떤 것과 가장 비슷합니까?
*
REINFORCE는 제어 문제의 풀이법 중 어떤 것과 가장 비슷합니까?
A
MC 제어
B
SARSA
C
Q-Learning
D
Dyna-Q
Submit