Page 1 of 1
[RL] off-policy 정책 경사
이름
*
on-policy 강화학습과 off-policy 강화학습의 차이는 무엇입니까?
*
DDPG는 어떤 행동 공간에 사용할 수 있습니까?
*
DDPG는 어떤 행동 공간에 사용할 수 있습니까?
A
이산적 행동공간
B
연속적 행동공간
C
A, B 둘 다
D
둘 중 어디에도 못 씀
SAC에서 가치 함수에 엔트로피를 포함시키는 이유는 무엇일까요?
*
Submit