Page 1 of 1

[RL] off-policy 정책 경사

이름

*

on-policy 강화학습과 off-policy 강화학습의 차이는 무엇입니까?

*

DDPG는 어떤 행동 공간에 사용할 수 있습니까?

*

DDPG는 어떤 행동 공간에 사용할 수 있습니까?

A

이산적 행동공간

B

연속적 행동공간

C

A, B 둘 다

D

둘 중 어디에도 못 씀

SAC에서 가치 함수에 엔트로피를 포함시키는 이유는 무엇일까요?

*