Page 1 of 1

[RL] PPO

이름

강화학습에서 "성능 붕괴"란 어떤 현상입니까?

PPO에서 새 정책이 기존 정책에서 일정 범위(예: ±10%) 내에서만 업데이트 되도록 클리핑하는 이유는 무엇입니까?