#Multi-agent Reinforcement Learning

2개의 포스트

[논문리뷰] Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas

기존의 LLM 기반 정책 합성 연구는 수동으로 설계된 파이프라인에 의존하며, 파이프라인의 각 구성 요소(프롬프트, 피드백 등)가 최종 정책의 질에 미치는 영향이 매우 큼에도 불구하고 이를 체계적으로 최적화하기 어렵다는 한계가 있습니다.

#Review #Sequential Social Dilemmas #Autoresearch #LLM Policy Synthesis #Mechanism Design #Information Design #Multi-agent Reinforcement Learning

2026년 5월 28일

[논문리뷰] The Alignment Waltz: Jointly Training Agents to Collaborate for Safety

대규모 언어 모델(LLM)이 유용하면서도 안전하게 작동하는 것 사이의 근본적인 긴장을 해소하는 것을 목표로 합니다. 특히, 적대적 공격에 취약하여 위험한 콘텐츠를 생성하거나, 양성이지만 민감한 프롬프트에 대해 과도하게 거절(overrefusal)하는 문제를 해결하고자 합니다.

#Review #LLM Safety #Multi-agent Reinforcement Learning #Safety Alignment #Overrefusal #Adversarial Attacks #Feedback Agent #Conversation Agent #Dynamic Improvement Reward

2025년 10월 10일