강화학습 (Reinforcement Learning, RL)

에이전트가 환경과 상호작용하며 보상 신호를 최대화하는 방향으로 스스로 학습하는 머신러닝 패러다임.

핵심 개념

Waymo 같은 자율주행 시스템은 트롤리-딜레마 상황에서 Expectation Value를 사용:

“얘가 남은 삶 동안 얼마나 많은 밸류를 세상에 미칠 것인지 그거를 계산해서 적용하는 방법”

— 미래 기여 가치를 수치화해 의사결정. 회사마다 가치 기준이 다름.

가상 환경(시뮬레이션) 안에서 로봇이 반복 실험 → 학습 → 실제 로봇에 전이 (Sim-to-Real-Transfer).

Google-Genie 3는 이 시뮬레이션 환경 생성 비용을 이미지 한 장으로 대폭 낮춤.