Page 1 of 1
강화학습 퀴즈 (10) 마지막 퀴즈
이름
*
정책 기반 강화학습의 장점은 무엇입니까?
*
정책경사정리의 함의를 설명해보세요
*
REINFORCE 알고리즘에서 수익(return)에서 기저선(baseline)을 빼는 이유는 무엇입니까?
*
Actor-Critic의 개념을 설명해보세요
*
MCTS의 핵심 아이디어를 설명해보세요
*
진화 알고리즘의 핵심 아이디어를 설명해보세요
*
모방 학습의 핵심 아이디어를 설명해보세요
*
RLHF의 핵심 아이디어를 설명해보세요
*
강화학습이 필요한 문제를 하나 설명해보세요
*
위의 문제는 이번 수업에서 배운 방법들(가치 기반, 정책 기반, Actor-Critic, MCTS, 진화, 모방, RLHF 등등) 중에서 어떤 방법으로 접근하면 좋을 것이라고 생각하십니까? 그리고 그 이유는 무엇입니까?
*
위와 같이 문제를 푸는 과정에서 예상되는 어려움과, 그 어려움에 대응하기 위한 방안을 제시해보세요.
*
Submit