Page 1 of 1

[RL] 가치

이름

정책(policy)이란 무엇입니까?

보상(reward), 수익(return), 가치(value), 이득(advantage)의 차이를 설명해보세요

수익(return)을 재귀적 형태로 올바르게 정의한 것을 고르세요.

수익(return)을 재귀적 형태로 올바르게 정의한 것을 고르세요.
A
B
C
D

할인은 보통 어떤 그리스 문자로 표시합니까?

할인은 보통 어떤 그리스 문자로 표시합니까?
A
B
C
D

확률적 정책을 π(a|s)라고 표기하면, 그 의미는 무엇입니까?

벨만 방정식에서 s'(에스 프라임)은 무엇을 의미합니까??

행위자가 보상을 빨리 받는 쪽을 선호하게 하려면 할인을 어떻게 해야 합니까?

행위자가 보상을 빨리 받는 쪽을 선호하게 하려면 할인을 어떻게 해야 합니까?
A
B

상태 가치 함수는 보통 어떤 알파벳으로 표시합니까?

행동 가치 함수는 보통 어떤 알파벳으로 표시합니까?

다른 상태는 몰라도 최소한 어떤 상태 하나에서는 최적 정책보다 기대 수익이 높은 정책이 존재할 수 있습니까?

다른 상태는 몰라도 최소한 어떤 상태 하나에서는 최적 정책보다 기대 수익이 높은 정책이 존재할 수 있습니까?
A
B

적대적 공격(adversarial attack)이란 무엇입니까?