강화학습 (Reinforcement Learning, RL)

에이전트가 환경과 상호작용하며 보상 신호를 최대화하는 방향으로 스스로 학습하는 머신러닝 패러다임.

핵심 개념

개념설명
Agent의사결정을 내리는 주체 (로봇, 자율주행차, 게임 캐릭터)
Environment에이전트가 상호작용하는 세계 (가상 시뮬레이션 또는 현실)
Reward행동의 좋고 나쁨을 수치화한 피드백
Expectation Value현재 상태에서 미래까지 기대되는 누적 보상 (미래 가치)

자율주행에서의 RL

Waymo 같은 자율주행 시스템은 트롤리-딜레마 상황에서 Expectation Value를 사용:

“얘가 남은 삶 동안 얼마나 많은 밸류를 세상에 미칠 것인지 그거를 계산해서 적용하는 방법”

— 미래 기여 가치를 수치화해 의사결정. 회사마다 가치 기준이 다름.

로봇 학습에서의 RL

가상 환경(시뮬레이션) 안에서 로봇이 반복 실험 → 학습 → 실제 로봇에 전이 (Sim-to-Real-Transfer).

Google-Genie 3는 이 시뮬레이션 환경 생성 비용을 이미지 한 장으로 대폭 낮춤.

관련 노트