[RL] 가치
보상(reward), 수익(return), 가치(value), 이득(advantage)의 차이를 설명해보세요
*
수익(return)을 재귀적 형태로 올바르게 정의한 것을 고르세요.
*
수익(return)을 재귀적 형태로 올바르게 정의한 것을 고르세요.
할인은 보통 어떤 그리스 문자로 표시합니까?
*
확률적 정책을 π(a|s)라고 표기하면, 그 의미는 무엇입니까?
*
벨만 방정식에서 s'(에스 프라임)은 무엇을 의미합니까??
*
행위자가 보상을 빨리 받는 쪽을 선호하게 하려면 할인을 어떻게 해야 합니까?
*
행위자가 보상을 빨리 받는 쪽을 선호하게 하려면 할인을 어떻게 해야 합니까?
상태 가치 함수는 보통 어떤 알파벳으로 표시합니까?
*
행동 가치 함수는 보통 어떤 알파벳으로 표시합니까?
*
다른 상태는 몰라도 최소한 어떤 상태 하나에서는 최적 정책보다 기대 수익이 높은 정책이 존재할 수 있습니까?
*
다른 상태는 몰라도 최소한 어떤 상태 하나에서는 최적 정책보다 기대 수익이 높은 정책이 존재할 수 있습니까?
적대적 공격(adversarial attack)이란 무엇입니까?
*