[논문리뷰] The Alignment Waltz: Jointly Training Agents to Collaborate for Safety대규모 언어 모델(LLM)이 유용하면서도 안전하게 작동하는 것 사이의 근본적인 긴장을 해소하는 것을 목표로 합니다. 특히, 적대적 공격에 취약하여 위험한 콘텐츠를 생성하거나, 양성이지만 민감한 프롬프트에 대해 과도하게 거절(overrefusal)하는 문제를 해결하고자 합니다.#Review#LLM Safety#Multi-agent Reinforcement Learning#Safety Alignment#Overrefusal#Adversarial Attacks#Feedback Agent#Conversation Agent#Dynamic Improvement Reward2025년 10월 10일댓글 수 로딩 중