Page 1 of 1

[RL] off-policy 정책 경사

이름

on-policy 강화학습과 off-policy 강화학습의 차이는 무엇입니까?

DDPG는 어떤 행동 공간에 사용할 수 있습니까?

DDPG는 어떤 행동 공간에 사용할 수 있습니까?
A
B
C
D

SAC에서 가치 함수에 엔트로피를 포함시키는 이유는 무엇일까요?