[논문리뷰] Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models기존 다중 에이전트 강화 학습(MARL), 특히 Policy-Space Response Oracles (PSRO) 에서 심층 강화 학습(DRL) 오라클 이 생성하는 '블랙박스' 신경망 정책의 불투명성 문제를 해결하고, 인간이 해석 가능한 정책 을 생성하는 새로운 프레임워크를 제시하는 것이 목표입니다.#Review#Multi-Agent Reinforcement Learning#Policy-Space Response Oracles#Large Language Models#Program Synthesis#Interpretable AI#Game Theory#Code Generation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Discovering Multiagent Learning Algorithms with Large Language Models이 논문은 다중 에이전트 강화 학습(MARL) 알고리즘의 수동적인 설계 및 반복적인 개선의 한계를 극복하기 위해 대규모 언어 모델(LLM) 을 활용하여 새로운 알고리즘을 자동으로 발견하는 것을 목표로 합니다.#Review#Multi-Agent Reinforcement Learning#Game Theory#Large Language Models#Evolutionary Algorithms#Counterfactual Regret Minimization#Policy Space Response Oracles#Algorithm Discovery2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Monopoly Deal: A Benchmark Environment for Bounded One-Sided Response Games본 연구는 기존 게임 이론에서 충분히 다뤄지지 않은 Bounded One-Sided Response Games (BORGs) 라는 동적 상호작용 패턴을 연구하기 위한 재현 가능한 벤치마크 환경 을 제공하는 것을 목표로 합니다.#Review#Bounded One-Sided Response Games (BORGs)#Monopoly Deal#Benchmark Environment#Counterfactual Regret Minimization (CFR)#Imperfect Information Games#Game Theory#Self-Play#State Abstraction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Multiplayer Nash Preference Optimization기존 RLHF의 Bradley-Terry 모델 이 실제 세계의 비전이적(non-transitive)이고 이질적인 선호도를 포착하지 못하는 한계를 해결하고자 합니다.#Review#RLHF#LLM Alignment#Nash Equilibrium#Multiplayer Games#Preference Optimization#Non-transitive Preferences#Game Theory2025년 9월 30일댓글 수 로딩 중
[논문리뷰] GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare본 논문은 LLM이 사용자에게 최적화되지 않은 응답을 생성하여 개별적인 합리적 선택이 사회적으로 최적화되지 않은 결과를 초래하는 프리저너스 딜레마(prisoner's dilemma) 와 유사한 문제를 해결하고자 합니다.#Review#Large Language Models#LLM Alignment#Game Theory#Reinforcement Learning#Mutual Welfare#Payoff Matrix#Strategic Decision Making#Human-AI Interaction2025년 10월 13일댓글 수 로딩 중