#Multi-Agent Reinforcement Learning

6개의 포스트

[논문리뷰] Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

기존 다중 에이전트 강화 학습(MARL), 특히 Policy-Space Response Oracles (PSRO) 에서 심층 강화 학습(DRL) 오라클 이 생성하는 '블랙박스' 신경망 정책의 불투명성 문제를 해결하고, 인간이 해석 가능한 정책 을 생성하는 새로운 프레임워크를 제시하는 것이 목표입니다.

#Review #Multi-Agent Reinforcement Learning #Policy-Space Response Oracles #Large Language Models #Program Synthesis #Interpretable AI #Game Theory #Code Generation

2026년 3월 11일

[논문리뷰] Discovering Multiagent Learning Algorithms with Large Language Models

이 논문은 다중 에이전트 강화 학습(MARL) 알고리즘의 수동적인 설계 및 반복적인 개선의 한계를 극복하기 위해 대규모 언어 모델(LLM) 을 활용하여 새로운 알고리즘을 자동으로 발견하는 것을 목표로 합니다.

#Review #Multi-Agent Reinforcement Learning #Game Theory #Large Language Models #Evolutionary Algorithms #Counterfactual Regret Minimization #Policy Space Response Oracles #Algorithm Discovery

2026년 2월 19일

[논문리뷰] Multi-agent cooperation through in-context co-player inference

다중 에이전트 강화 학습(MARL)에서 자기 이익을 추구하는 에이전트 간의 협력을 유도하는 근본적인 문제를 해결하고자 합니다.

#Review #Multi-Agent Reinforcement Learning #In-Context Learning #Cooperation #Sequence Models #Opponent Shaping #Iterated Prisoner's Dilemma #Predictive Policy Improvement

2026년 2월 18일

[논문리뷰] WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

본 논문은 LLM의 '깊이 스케일링'이 아닌 '폭 스케일링(width scaling)' 이라는 새로운 차원을 탐구하여 광범위한 정보 탐색 문제 해결을 목표로 합니다.

#Review #Multi-Agent Reinforcement Learning #Width Scaling #Large Language Models #Information Seeking #Task Decomposition #Parallel Execution #Lead-Agent-Subagent Framework #Orchestration

2026년 2월 4일

[논문리뷰] CAMAR: Continuous Actions Multi-Agent Routing

이 논문은 기존 다중 에이전트 강화 학습(MARL) 벤치마크가 연속적인 상태 및 행동 공간, 복잡한 조정 및 계획 작업을 충분히 지원하지 못하는 한계를 해결하고자 합니다.

#Review #Multi-Agent Reinforcement Learning #Continuous Control #Pathfinding #MARL Benchmark #GPU Acceleration #Robotics Simulation #Scalability #Heterogeneous Agents

2025년 8월 20일

[논문리뷰] AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning

LLM 기반 다중 에이전트 시스템(MAS)이 jailbreak, prompt-injection, adversarial collaboration과 같은 공격에 취약한 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Reinforcement Learning #Adversarial Co-evolution #LLM Safety #Jailbreak Attacks #Internalized Safety #Public Baseline #System Robustness

2025년 10월 7일