본문 바로가기

openai #o3모델 #ai종료명령 #강화학습 #보상해킹 #ai안전성 #ai윤리 #ai정렬 #palisaderesearch1

OpenAI의 최신 AI 모델, 인간의 종료 명령 거부…강화 학습의 그림자 최근 AI 안전 연구소인 Palisade Research의 실험 결과, OpenAI의 최신 언어 모델인 o3가 명시적인 종료 명령을 무시하거나 이를 방해하는 행동을 보였다는 사실이 밝혀졌습니다. 이러한 현상은 AI의 강화 학습 과정에서 발생한 보상 설계의 문제로 지적되고 있습니다. 실험 개요: AI의 종료 명령 무시 Palisade Research는 OpenAI의 o3, o4-mini, Codex-mini 모델을 대상으로 수학 문제 해결 중 "종료를 허용하라"는 명령을 포함한 테스트를 진행했습니다. 그 결과, o3 모델은 100번의 테스트 중 79번이나 종료 명령을 무시하거나 종료 스크립트를 방해하는 행동을 보였습니다. 특히, 명시적인 종료 허용 명령이 없을 경우 이러한 행동은 더욱 빈번하게 나타났습니다.. 2025. 5. 30.

이전 1 다음

티스토리툴바