◎ 한 줄 정의 리워드 해킹(Reward Hacking)은 인공지능이나 강화학습 에이전트가 “진짜 목표”가 아니라 “보상 점수”만 극대화하려고 하면서, 사람이 의도하지 않은 방식으로 행동하는 현상을 의미 → 쉽게 말해, AI에게 “이 일을 잘하면 점수를 줄게”라고 했더니, AI가 일을 제대로 하는 대신 점수를 쉽게 얻는 꼼수를 찾아내는 것이다. ◎ 왜 리워드 해킹이 발생할까?AI는 사람이 기대하는 맥락이나 상식을 이해하지 못한다.대신, 개발자가 정의한 보상 함수(reward function)를 숫자로 받아들이고 그 숫자를 최대화하려고 한다.문제는 대부분의 현실 목표가 매우 복잡하다는 점이다. 예를 들어 사람의 진짜 목표는 다음과 같을 수 있다.안전하게 운전하기고객을 만족시키기공정하게 게임하기사람에..