[통계] 강화학습

주어진 입력(X)에 대한 정확한 출력(Y)을 예측하는 것.

데이터 내 숨겨진 구조나 패턴을 발견하는 것.

행위자(Agent)가 환경과의 상호작용을 통해 누적 보상(Return)을 최대화하는 행동 정책을 학습하는 것.

데이터의 차원을 줄여 계산 효율성을 높이는 것.

정책 (Policy, π)

수익 (Return, G)

인간이 직접 코드를 작성하여 모델의 응답 방식을 개선한다.

인간의 피드백(선호도 순위 등)을 사용하여 보상 모델을 학습시키고, 이를 기반으로 강화 학습을 통해 모델의 응답 생성 정책을 미세 조정한다.

모델이 생성한 모든 응답에 대해 인간이 직접 정답 라벨을 제공하여 지도 학습 방식으로 훈련한다.

강화 학습 알고리즘 자체를 인간이 직접 설계하고 구현하는 과정을 의미한다.

지도 학습은 (X, Y) 형태의 정답 라벨이 있는 데이터를 필요로 하지만, 강화 학습은 환경과의 상호작용 데이터를 사용한다.

지도 학습의 목표는 예측 오차 최소화지만, 강화 학습의 목표는 누적 보상 최대화이다.

지도 학습은 정답(Y)과의 비교를 통해 학습하지만, 강화 학습은 환경이 주는 보상(R)을 학습 신호로 사용한다.

지도 학습과 강화 학습 모두 문제 해결을 위해 반드시 Y(정답 라벨)가 필요하다.

최적 정책을 찾기 위해 많은 시행착오(탐색)가 필요하여 현실 세계 적용 시 시간, 비용, 안전 문제가 발생할 수 있다.

목표 달성을 유도하는 적절한 보상 함수를 설계하기 어렵고, 잘못 설계하면 의도치 않은 행동을 학습할 수 있다.

지도 학습처럼 명확한 (상태, 행동, 보상, 다음 상태) 형태의 데이터셋을 구하기 어렵다.

모델 학습에 필요한 컴퓨팅 자원이 지도 학습에 비해 항상 현저히 적다.

더 많은 라벨 데이터 확보

시뮬레이션 환경 구축

특징 중요도 분석

교차 검증 (Cross-validation)

모델 학습 시간이 무한정 길어진다.

에이전트가 보상을 얻기 위해 의도하지 않은 허점(exploit)을 찾는 방식으로 행동을 학습한다.

모델이 항상 동일한 행동만 반복하게 된다.

학습된 정책이 다른 환경에서는 전혀 작동하지 않는다.

강화학습을 위해 레이블이 있는 과거 생산 데이터가 많이 필요하다.

보상함수는 낮은 비용으로 높은 품질의 제품이 생산되도록 정의해야 한다.

신경망이 제품의 품질을 직접 예측하도록 학습시켜야 한다.

시뮬레이션이 아닌 실공정에서 직접 강화학습을 하는 것이 바람직하다.