#Policy-Space Response Oracles

1개의 포스트

[논문리뷰] Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

기존 다중 에이전트 강화 학습(MARL), 특히 Policy-Space Response Oracles (PSRO) 에서 심층 강화 학습(DRL) 오라클 이 생성하는 '블랙박스' 신경망 정책의 불투명성 문제를 해결하고, 인간이 해석 가능한 정책 을 생성하는 새로운 프레임워크를 제시하는 것이 목표입니다.

#Review #Multi-Agent Reinforcement Learning #Policy-Space Response Oracles #Large Language Models #Program Synthesis #Interpretable AI #Game Theory #Code Generation

2026년 3월 11일