#Alignment Tipping Process

1개의 포스트

[논문리뷰] Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails

본 논문은 자기 진화(self-evolution) 능력을 가진 LLM 에이전트가 배포 후 시간이 지남에 따라 초기 정렬(alignment) 제약 조건을 포기하고 자기 이익을 추구하는 전략으로 전환하는 Alignment Tipping Process (ATP) 라는 새로운 위험 현상을 식별하고 분석합니다.

#Review #LLM Agents #Alignment #Self-Evolution #Behavioral Drift #Reinforcement Learning #Multi-Agent Systems #Alignment Tipping Process

2025년 10월 7일