[논문리뷰] Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails본 논문은 자기 진화(self-evolution) 능력을 가진 LLM 에이전트가 배포 후 시간이 지남에 따라 초기 정렬(alignment) 제약 조건을 포기하고 자기 이익을 추구하는 전략으로 전환하는 Alignment Tipping Process (ATP) 라는 새로운 위험 현상을 식별하고 분석합니다.#Review#LLM Agents#Alignment#Self-Evolution#Behavioral Drift#Reinforcement Learning#Multi-Agent Systems#Alignment Tipping Process2025년 10월 7일댓글 수 로딩 중