Page 1 of 1

[RL] 가치기반 강화학습

이름

DQN은 제어 문제에서 어떤 방법을 딥러닝으로 구현한 것입니까?

DQN은 제어 문제에서 어떤 방법을 딥러닝으로 구현한 것입니까?

A

MC제어

B

SARSA

C

Q-Learning

D

Dyna-Q

DQN에서 Q-Network가 2개인 이유는 함수 근사의 어떤 문제를 해결하기 위한 것입니까?

DQN에서 Q-Network가 2개인 이유는 함수 근사의 어떤 문제를 해결하기 위한 것입니까?

A

훈련의 불안정성

B

iid 가정 위배

C

A, B 두 가지 모두 해결

D

A, B는 관련 없음

위와 같이 Q-Network가 2개로 나뉘어져 있어서 생기는 새로운 문제는 무엇입니까? 그리고 이에 대한 DQN의 해결책은?

TD 타겟으로 오차가 역전파 되면 무엇이 문제이기에 경사 계산에서 제외하는 것일까요?

후버 손실이 강화학습에서 가지는 장점은 무엇입니까? 다른 손실과 비교해서 설명해보세요.

Q 학습의 최대화 편향에 대해 설명해보세요

강화학습에서 이득(advantage)란 무엇입니까?

듀얼링(dueling)을 하는 이유를 설명해보세요