Page 1 of 1
[RL] 경험 리플레이
이름
*
DQN에서 경험 리플레이는 함수 근사의 어떤 문제를 해결하기 위한 것입니까?
*
DQN에서 경험 리플레이는 함수 근사의 어떤 문제를 해결하기 위한 것입니까?
A
훈련의 불안정성
B
iid 가정의 위배
C
A, B 둘 다
D
A, B와는 관련 없음
PER에서 TD 오차가 크면 중요하다고 볼 수 있는 이유는 무엇입니까?
*
비트 플리핑 환경이 어려운 이유는 무엇입니까?
*
Hindsight Experience Replay의 핵심 아이디어를 설명해보세요
*
HER을 적용하려면 환경에 compute_reward 함수가 구현되어 있어야하는 이유는 무엇입니까?
*
Submit