Page 1 of 1

[통계] 강화학습과 딥러닝

이름

강화 학습(Reinforcement Learning)의 핵심 목표는 무엇인가요?

주어진 입력(X)에 대한 정확한 출력(Y)을 예측하는 것.

데이터 내 숨겨진 구조나 패턴을 발견하는 것.

행위자가 환경과의 상호작용을 통해 누적 보상을 최대화하는 행동 정책을 학습하는 것.

데이터의 차원을 줄여 계산 효율성을 높이는 것.

강화 학습의 구성 요소 중, 행위자가 특정 상태에서 어떤 행동을 선택할지 결정하는 전략이나 규칙을 무엇이라고 하나요?

상태 (State)

보상 (Reward)

정책 (Policy, π)

수익 (Return, G)

ChatGPT와 같은 대규모 언어 모델 훈련에 활용되는 RLHF(Reinforcement Learning from Human Feedback) 기법에 대한 설명으로 가장 적절한 것은 무엇인가요?

인간이 직접 코드를 작성하여 모델의 응답 방식을 개선한다.

인간의 피드백(선호도 순위 등)을 사용하여 보상 모델을 학습시키고, 이를 기반으로 강화 학습을 통해 모델의 응답 생성 정책을 미세 조정한다.

모델이 생성한 모든 응답에 대해 인간이 직접 정답 라벨을 제공하여 지도 학습 방식으로 훈련한다.

강화 학습 알고리즘 자체를 인간이 직접 설계하고 구현하는 과정을 의미한다.

지도 학습과 강화 학습의 주요 차이점에 대한 설명으로 틀린 것은 무엇인가요?

지도 학습은 (X, Y) 형태의 정답 라벨이 있는 데이터를 필요로 하지만, 강화 학습은 환경과의 상호작용 데이터를 사용한다.

지도 학습의 목표는 예측 오차 최소화지만, 강화 학습의 목표는 누적 보상 최대화이다.

지도 학습은 정답(Y)과의 비교를 통해 학습하지만, 강화 학습은 환경이 주는 보상(R)을 학습 신호로 사용한다.

지도 학습과 강화 학습 모두 문제 해결을 위해 반드시 Y(정답 라벨)가 필요하다.

강화 학습을 실제 현업 문제에 적용할 때 겪을 수 있는 어려움으로 언급된 것이 아닌 것은 무엇인가요?

최적 정책을 찾기 위해 많은 시행착오(탐색)가 필요하여 현실 세계 적용 시 시간, 비용, 안전 문제가 발생할 수 있다.

목표 달성을 유도하는 적절한 보상 함수를 설계하기 어렵고, 잘못 설계하면 의도치 않은 행동을 학습할 수 있다.

지도 학습처럼 명확한 (상태, 행동, 보상, 다음 상태) 형태의 데이터셋을 구하기 어렵다.

모델 학습에 필요한 컴퓨팅 자원이 지도 학습에 비해 항상 현저히 적다.

강화 학습에서 행위자가 최적의 정책을 찾기 위해 환경 내에서 많은 시도를 해보는 과정(탐색)이 현실 세계에서 어려움을 야기할 수 있어 중요성이 강조되는 것은 무엇인가요?

강화 학습에서 행위자가 최적의 정책을 찾기 위해 환경 내에서 많은 시도를 해보는 과정(탐색)이 현실 세계에서 어려움을 야기할 수 있어 중요성이 강조되는 것은 무엇인가요?

더 많은 라벨 데이터 확보

시뮬레이션 환경 구축

특징 중요도 분석

교차 검증 (Cross-validation)

강화 학습에서 보상 함수를 잘못 설계했을 때 발생할 수 있는 문제로 가장 대표적인 것은 무엇인가요?

모델 학습 시간이 무한정 길어진다.

에이전트가 보상을 얻기 위해 의도하지 않은 허점(exploit)을 찾는 방식으로 행동을 학습한다.

모델이 항상 동일한 행동만 반복하게 된다.

학습된 정책이 다른 환경에서는 전혀 작동하지 않는다.

딥러닝 강화학습을 이용하여 공정 최적화를 하려고 합니다. 제조 공정에서 온도, 압력, 원료 투입량 등의 다양한 변수를 조절하여 제품 품질을 극대화하고자 합니다. 다음 중 이러한 상황에서 강화학습 적용에 관한 설명으로 가장 옳은 것은?

딥러닝 강화학습을 이용하여 공정 최적화를 하려고 합니다. 제조 공정에서 온도, 압력, 원료 투입량 등의 다양한 변수를 조절하여 제품 품질을 극대화하고자 합니다. 다음 중 이러한 상황에서 강화학습 적용에 관한 설명으로 가장 옳은 것은?

강화학습을 위해 레이블이 있는 과거 생산 데이터가 많이 필요하다.

보상함수는 낮은 비용으로 높은 품질의 제품이 생산되도록 정의해야 한다.

신경망이 제품의 품질을 직접 예측하도록 학습시켜야 한다.

시뮬레이션이 아닌 실공정에서 직접 강화학습을 하는 것이 바람직하다.

인공신경망(ANN)의 기본 단위인 인공 뉴런(퍼셉트론)의 작동 방식으로 가장 적절한 설명은 무엇인가요?

입력을 그대로 출력으로 내보낸다.

여러 입력을 받아 각각의 가중치를 곱해 합산하고, 편향을 더한 뒤 활성화 함수를 통과시켜 출력한다.

입력 중 가장 큰 값 하나만 선택하여 출력한다.

입력 값들의 평균을 계산하여 출력한다.

'보편 근사 정리(Universal Approximation Theorem)'가 시사하는 바는 무엇인가요?

모든 인공신경망은 항상 최적의 해를 찾을 수 있다.

충분한 크기의 다층신경망은 어떤 연속 함수든 원하는 정확도로 모방(근사)할 수 있다.

인공신경망은 생물학적 신경망보다 항상 우수한 성능을 보인다.

인공신경망은 선형 함수만 근사할 수 있다.

인공신경망을 학습시키는 주된 목표는 무엇인가요?

신경망의 층(layer) 수를 최대화하는 것.

모델 예측값과 실제 값의 차이(손실 함수 값)를 최소화하도록 가중치(w)와 편향(b)을 조정하는 것.

가능한 많은 활성화 함수를 사용하는 것.

학습 데이터에 완벽하게 일치하는 모델을 만드는 것(과적합).

인공신경망 학습 시, 손실 함수의 기울기(gradient)를 사용하여 파라미터를 점진적으로 업데이트하는 최적화 방법을 무엇이라고 하나요?

은닉층 (Hidden Layer)

경사 하강법 (Gradient Descent)

활성화 함수 (Activation Function)

보편 근사 정리 (Universal Approximation Theorem)