PaperDrop

  • 홈
  • 태그
  • 방명록
PAPERDROP

Reward Hacking 1

리워드 해킹(Reward Hacking)

◎ 한 줄 정의 리워드 해킹(Reward Hacking)은 인공지능이나 강화학습 에이전트가 “진짜 목표”가 아니라 “보상 점수”만 극대화하려고 하면서, 사람이 의도하지 않은 방식으로 행동하는 현상을 의미 → 쉽게 말해, AI에게 “이 일을 잘하면 점수를 줄게”라고 했더니, AI가 일을 제대로 하는 대신 점수를 쉽게 얻는 꼼수를 찾아내는 것이다. ◎ 왜 리워드 해킹이 발생할까?AI는 사람이 기대하는 맥락이나 상식을 이해하지 못한다.대신, 개발자가 정의한 보상 함수(reward function)를 숫자로 받아들이고 그 숫자를 최대화하려고 한다.문제는 대부분의 현실 목표가 매우 복잡하다는 점이다. 예를 들어 사람의 진짜 목표는 다음과 같을 수 있다.안전하게 운전하기고객을 만족시키기공정하게 게임하기사람에..

개념 정리/머신러닝 Machine Learning 2026.04.01
이전
1
다음
더보기
프로필사진

PaperDrop

IT, 데이터분석, 머신러닝을 공부합니다.

  • 분류 전체보기 (103)
    • 포트폴리오 (10)
      • 지원 직무 (0)
      • 자기소개 (2)
      • 프로젝트 (5)
      • 교육수강 (2)
      • 책 (1)
    • KT AIVLE School (7기) (33)
      • KT에이블스쿨 기자단 (11)
      • 수업 내용 정리 (22)
    • SSAFY (15기) (10)
      • SSAFYcial 15기 기자단 (10)
      • 수업 내용 정리 (0)
    • 개념 정리 (37)
      • 컴퓨터 사이언스 Computer Science (1)
      • 인공지능 Artificial Intelligenc.. (2)
      • 머신러닝 Machine Learning (2)
      • 데이터 분석 Data Analysis (1)
      • IT 인프라 IT infrastructure (19)
      • 데이터베이스 Database (3)
      • 네트워크 Network (1)
      • IT 서비스 IT Service (8)
    • 알고리즘 Algorithm (11)
    • 장고 Django (1)
    • 자격증 (1)
      • SQLD (1)
      • 빅데이터분석기사 (0)

Tag

MLOps, 머신러닝, 인공지능, 클라우드, 데이터분석, Python, KT에이블스쿨, 목표시스템구성도, 프롬프트엔지니어링, DX, LLM, 미니프로젝트, 온프레미스, SSAFY, 생성형AI, 대전지역, 데이터베이스, dx트랙, devops, IT인프라,

최근글과 인기글

  • 최근글
  • 인기글

Calendar

«   2026/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

Copyright © AXZ Corp. All rights reserved.

티스토리툴바