Page 1 of 1

[RL] 경험 리플레이

이름

*

DQN에서 경험 리플레이는 함수 근사의 어떤 문제를 해결하기 위한 것입니까?

*

DQN에서 경험 리플레이는 함수 근사의 어떤 문제를 해결하기 위한 것입니까?

A

훈련의 불안정성

B

iid 가정의 위배

C

A, B 둘 다

D

A, B와는 관련 없음

PER에서 TD 오차가 크면 중요하다고 볼 수 있는 이유는 무엇입니까?

*

비트 플리핑 환경이 어려운 이유는 무엇입니까?

*

Hindsight Experience Replay의 핵심 아이디어를 설명해보세요

*

HER을 적용하려면 환경에 compute_reward 함수가 구현되어 있어야하는 이유는 무엇입니까?

*