Page 1 of 1

[통계] 강화학습

이름

강화 학습(Reinforcement Learning)의 핵심 목표는 무엇인가요?

강화 학습(Reinforcement Learning)의 핵심 목표는 무엇인가요?
A
B
C
D

강화 학습의 구성 요소 중, 행위자(Agent)가 특정 상황(상태)에서 어떤 행동을 선택할지 결정하는 전략이나 규칙을 무엇이라고 하나요?

강화 학습의 구성 요소 중, 행위자(Agent)가 특정 상황(상태)에서 어떤 행동을 선택할지 결정하는 전략이나 규칙을 무엇이라고 하나요?
A
B
C
D

ChatGPT와 같은 대규모 언어 모델 훈련에 활용되는 RLHF(Reinforcement Learning from Human Feedback) 기법에 대한 설명으로 가장 적절한 것은 무엇인가요?

ChatGPT와 같은 대규모 언어 모델 훈련에 활용되는 RLHF(Reinforcement Learning from Human Feedback) 기법에 대한 설명으로 가장 적절한 것은 무엇인가요?
A
B
C
D

지도 학습과 강화 학습의 주요 차이점에 대한 설명으로 틀린 것은 무엇인가요?

지도 학습과 강화 학습의 주요 차이점에 대한 설명으로 틀린 것은 무엇인가요?
A
B
C
D

강화 학습을 실제 현업 문제에 적용할 때 겪을 수 있는 어려움으로 언급된 것이 아닌 것은 무엇인가요?

강화 학습을 실제 현업 문제에 적용할 때 겪을 수 있는 어려움으로 언급된 것이 아닌 것은 무엇인가요?
A
B
C
D

강화 학습에서 행위자가 최적의 정책을 찾기 위해 환경 내에서 많은 시도를 해보는 과정(탐색)이 현실 세계에서 어려움을 야기할 수 있어 중요성이 강조되는 것은 무엇인가요?

강화 학습에서 행위자가 최적의 정책을 찾기 위해 환경 내에서 많은 시도를 해보는 과정(탐색)이 현실 세계에서 어려움을 야기할 수 있어 중요성이 강조되는 것은 무엇인가요?
A
B
C
D

강화 학습에서 보상 함수를 잘못 설계했을 때 발생할 수 있는 문제로 가장 대표적인 것은 무엇인가요?

강화 학습에서 보상 함수를 잘못 설계했을 때 발생할 수 있는 문제로 가장 대표적인 것은 무엇인가요?
A
B
C
D

딥러닝 강화학습을 이용하여 공정 최적화를 하려고 합니다. 제조 공정에서 온도, 압력, 원료 투입량 등의 다양한 변수를 조절하여 제품 품질을 극대화하고자 합니다. 다음 중 이러한 상황에서 강화학습 적용에 관한 설명으로 가장 옳은 것은?

딥러닝 강화학습을 이용하여 공정 최적화를 하려고 합니다. 제조 공정에서 온도, 압력, 원료 투입량 등의 다양한 변수를 조절하여 제품 품질을 극대화하고자 합니다. 다음 중 이러한 상황에서 강화학습 적용에 관한 설명으로 가장 옳은 것은?
A
B
C
D