[논문리뷰] InfoPO: Information-Driven Policy Optimization for User-Centric AgentsYuyu Luo이 arXiv에 게시한 'InfoPO: Information-Driven Policy Optimization for User-Centric Agents' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Information Gain#Credit Assignment#Multi-turn Interaction#User-centric Agents#Counterfactual Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] CoVe: Training Interactive Tool-Use Agents via Constraint-Guided VerificationZichen Tian이 arXiv에 게시한 'CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification' 논문에 대한 자세한 리뷰입니다.#Review#Tool-Use Agents#Multi-turn Interaction#Data Synthesis#Constraint-Guided Verification#Large Language Models#Supervised Fine-tuning#Reinforcement Learning2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Agent Banana: High-Fidelity Image Editing with Agentic Thinking and ToolingarXiv에 게시된 'Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Agentic AI#Multi-turn Interaction#High-Fidelity#Native Resolution#LLM#Context Folding#Layer Decomposition2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel GenerationsarXiv에 게시된 'Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Kernel Generation#Triton#GPU Optimization#LLMs#Reward Hacking#Multi-turn Interaction#Code Generation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement ArenasKaichi Yu이 arXiv에 게시한 'ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agent#Tool Use#Trajectory Synthesis#Reinforcement Learning#Environment Synthesis#Data Generation#Multi-turn Interaction#Automated Training2026년 2월 1일댓글 수 로딩 중
[논문리뷰] RefineBench: Evaluating Refinement Capability of Language Models via ChecklistsarXiv에 게시된 'RefineBench: Evaluating Refinement Capability of Language Models via Checklists' 논문에 대한 자세한 리뷰입니다.#Review#Language Models#Refinement Capability#Self-Refinement#Guided Refinement#Checklist Evaluation#Multi-turn Interaction#Benchmark2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement LearningYucong Luo이 arXiv에 게시한 'Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Reinforcement Learning#Markov Decision Process#Tool Use#Multi-turn Interaction#Policy Optimization#Reward Shaping#Agent Framework2025년 11월 18일댓글 수 로딩 중
[논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn DialogueDongchuan Ran이 arXiv에 게시한 'InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue' 논문에 대한 자세한 리뷰입니다.#Review#Omni-modal LLM#Audio-Visual Dialogue#Multi-turn Interaction#Speech Generation#Long-term Memory#Multimodal Understanding#End-to-end Training2025년 10월 16일댓글 수 로딩 중
[논문리뷰] BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic InteractionsShipei Lin이 arXiv에 게시한 'BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-SQL#LLM Evaluation#Multi-turn Interaction#Dynamic Environment#User Simulator#Ambiguity Resolution#LLM Agents2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMsYao Shu이 arXiv에 게시한 'Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Multi-turn Interaction#Test-Time Adaptation#Reinforcement Learning from Human Feedback#Policy Optimization#Online Learning#Self-Correction2025년 10월 1일댓글 수 로딩 중
[논문리뷰] RecoWorld: Building Simulated Environments for Agentic Recommender SystemsMingyuan Wu이 arXiv에 게시한 'RecoWorld: Building Simulated Environments for Agentic Recommender Systems' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Recommender Systems#Simulated Environments#LLM-driven Simulation#Multi-turn Interaction#Reinforcement Learning#User Retention#Instruction Following#Multi-agent Systems2025년 9월 19일댓글 수 로딩 중
[논문리뷰] UI-S1: Advancing GUI Automation via Semi-online Reinforcement LearningYongliang Shen이 arXiv에 게시한 'UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#GUI Automation#Reinforcement Learning#Semi-online RL#Offline RL#Online RL#Patch Module#Multi-turn Interaction#Large Language Models2025년 9월 16일댓글 수 로딩 중