Page 1 of 1

강화학습 퀴즈 (10) 마지막 퀴즈

이름

정책 기반 강화학습의 장점은 무엇입니까?

정책경사정리의 함의를 설명해보세요

REINFORCE 알고리즘에서 수익(return)에서 기저선(baseline)을 빼는 이유는 무엇입니까?

Actor-Critic의 개념을 설명해보세요

MCTS의 핵심 아이디어를 설명해보세요

진화 알고리즘의 핵심 아이디어를 설명해보세요

모방 학습의 핵심 아이디어를 설명해보세요

RLHF의 핵심 아이디어를 설명해보세요

강화학습이 필요한 문제를 하나 설명해보세요

위의 문제는 이번 수업에서 배운 방법들(가치 기반, 정책 기반, Actor-Critic, MCTS, 진화, 모방, RLHF 등등) 중에서 어떤 방법으로 접근하면 좋을 것이라고 생각하십니까? 그리고 그 이유는 무엇입니까?

위와 같이 문제를 푸는 과정에서 예상되는 어려움과, 그 어려움에 대응하기 위한 방안을 제시해보세요.