Page 1 of 1
[RL] 가치기반 강화학습
이름
*
DQN은 제어 문제에서 어떤 방법을 딥러닝으로 구현한 것입니까?
*
DQN은 제어 문제에서 어떤 방법을 딥러닝으로 구현한 것입니까?
A
MC제어
B
SARSA
C
Q-Learning
D
Dyna-Q
DQN에서 Q-Network가 2개인 이유는 함수 근사의 어떤 문제를 해결하기 위한 것입니까?
*
DQN에서 Q-Network가 2개인 이유는 함수 근사의 어떤 문제를 해결하기 위한 것입니까?
A
훈련의 불안정성
B
iid 가정 위배
C
A, B 두 가지 모두 해결
D
A, B는 관련 없음
위와 같이 Q-Network가 2개로 나뉘어져 있어서 생기는 새로운 문제는 무엇입니까? 그리고 이에 대한 DQN의 해결책은?
*
TD 타겟으로 오차가 역전파 되면 무엇이 문제이기에 경사 계산에서 제외하는 것일까요?
*
후버 손실이 강화학습에서 가지는 장점은 무엇입니까? 다른 손실과 비교해서 설명해보세요.
*
Q 학습의 최대화 편향에 대해 설명해보세요
*
강화학습에서 이득(advantage)란 무엇입니까?
*
듀얼링(dueling)을 하는 이유를 설명해보세요
*
Submit