[논문리뷰] Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models기존 다중 에이전트 강화 학습(MARL), 특히 Policy-Space Response Oracles (PSRO) 에서 심층 강화 학습(DRL) 오라클 이 생성하는 '블랙박스' 신경망 정책의 불투명성 문제를 해결하고, 인간이 해석 가능한 정책 을 생성하는 새로운 프레임워크를 제시하는 것이 목표입니다.#Review#Multi-Agent Reinforcement Learning#Policy-Space Response Oracles#Large Language Models#Program Synthesis#Interpretable AI#Game Theory#Code Generation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Discovering Multiagent Learning Algorithms with Large Language Models이 논문은 다중 에이전트 강화 학습(MARL) 알고리즘의 수동적인 설계 및 반복적인 개선의 한계를 극복하기 위해 대규모 언어 모델(LLM) 을 활용하여 새로운 알고리즘을 자동으로 발견하는 것을 목표로 합니다.#Review#Multi-Agent Reinforcement Learning#Game Theory#Large Language Models#Evolutionary Algorithms#Counterfactual Regret Minimization#Policy Space Response Oracles#Algorithm Discovery2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Multi-agent cooperation through in-context co-player inference다중 에이전트 강화 학습(MARL)에서 자기 이익을 추구하는 에이전트 간의 협력을 유도하는 근본적인 문제를 해결하고자 합니다.#Review#Multi-Agent Reinforcement Learning#In-Context Learning#Cooperation#Sequence Models#Opponent Shaping#Iterated Prisoner's Dilemma#Predictive Policy Improvement2026년 2월 18일댓글 수 로딩 중
[논문리뷰] WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning본 논문은 LLM의 '깊이 스케일링'이 아닌 '폭 스케일링(width scaling)' 이라는 새로운 차원을 탐구하여 광범위한 정보 탐색 문제 해결을 목표로 합니다.#Review#Multi-Agent Reinforcement Learning#Width Scaling#Large Language Models#Information Seeking#Task Decomposition#Parallel Execution#Lead-Agent-Subagent Framework#Orchestration2026년 2월 4일댓글 수 로딩 중
[논문리뷰] CAMAR: Continuous Actions Multi-Agent Routing이 논문은 기존 다중 에이전트 강화 학습(MARL) 벤치마크가 연속적인 상태 및 행동 공간, 복잡한 조정 및 계획 작업을 충분히 지원하지 못하는 한계를 해결하고자 합니다.#Review#Multi-Agent Reinforcement Learning#Continuous Control#Pathfinding#MARL Benchmark#GPU Acceleration#Robotics Simulation#Scalability#Heterogeneous Agents2025년 8월 20일댓글 수 로딩 중
[논문리뷰] AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement LearningLLM 기반 다중 에이전트 시스템(MAS)이 jailbreak, prompt-injection, adversarial collaboration과 같은 공격에 취약한 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Reinforcement Learning#Adversarial Co-evolution#LLM Safety#Jailbreak Attacks#Internalized Safety#Public Baseline#System Robustness2025년 10월 7일댓글 수 로딩 중