Page 1 of 1

[RL] 경험 리플레이

이름

DQN에서 경험 리플레이는 함수 근사의 어떤 문제를 해결하기 위한 것입니까?

DQN에서 경험 리플레이는 함수 근사의 어떤 문제를 해결하기 위한 것입니까?
A
B
C
D

PER에서 TD 오차가 크면 중요하다고 볼 수 있는 이유는 무엇입니까?

비트 플리핑 환경이 어려운 이유는 무엇입니까?

Hindsight Experience Replay의 핵심 아이디어를 설명해보세요

HER을 적용하려면 환경에 compute_reward 함수가 구현되어 있어야하는 이유는 무엇입니까?