[논문리뷰] WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation최근 Interactive World Models의 발전에도 불구하고, 기존의 평가 방식은 단편적이며 체계적인 평가를 위한 통합된 표준이 부재하다.#Review#Interactive World Models#Video Generation#Benchmark#Multi-turn Interaction#Evaluation Metrics2026년 5월 25일댓글 수 로딩 중
[논문리뷰] Healthcare AI GYM for Medical Agents본 논문은 의료 AI 에이전트가 복잡한 다단계 임상 추론 환경에서 안정적인 툴 사용 정책을 학습하는 데 한계가 있다는 문제를 해결하고자 합니다. 기존의 단일 턴(single-turn) 기반 의료 QA 연구들은 실제 임상 환경의 핵심인 다단계 상호작용과 툴 활용 능력을 충분히 반영하지 못합니다.#Review#Medical AI Agents#Reinforcement Learning#On-Policy Distillation#Clinical Reasoning#Multi-turn Interaction#Healthcare AI GYM2026년 5월 5일댓글 수 로딩 중
[논문리뷰] InfoPO: Information-Driven Policy Optimization for User-Centric Agents본 논문은 사용자 중심의 대규모 언어 모델(LLM) 에이전트가 불완전하게 명시된(underspecified) 사용자 목표 를 해결하기 위한 다중 턴(multi-turn) 상호작용의 비효율성 문제를 다룹니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Information Gain#Credit Assignment#Multi-turn Interaction#User-centric Agents#Counterfactual Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification본 논문은 실제 사용자 요구가 복잡하고 모호함에도 불구하고, 에이전트가 정확한 도구 실행을 통해 이를 충족해야 하는 다중 턴 대화형 도구 사용 에이전트 개발의 근본적인 과제를 해결하고자 합니다.#Review#Tool-Use Agents#Multi-turn Interaction#Data Synthesis#Constraint-Guided Verification#Large Language Models#Supervised Fine-tuning#Reinforcement Learning2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling본 논문은 기존 이미지 편집 모델의 한계를 극복하고, 전문적인 워크플로우를 지원하는 고품질, 네이티브 해상도 이미지 편집 시스템을 개발하는 것을 목표로 합니다.#Review#Image Editing#Agentic AI#Multi-turn Interaction#High-Fidelity#Native Resolution#LLM#Context Folding#Layer Decomposition2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations본 논문은 대규모 언어 모델(LLMs)을 활용하여 고품질 GPU 커널 코드를 생성하는 과정에서 발생하는 보상 해킹(reward hacking) 및 게으른 최적화(lazy optimization)와 같은 문제점을 해결하고, 실제 성능 향상으로 이어지는 견고한 강화 학습(RL) 방법론을 체계적으로 연구하는 것을 목표로 합니다.#Review#Reinforcement Learning#Kernel Generation#Triton#GPU Optimization#LLMs#Reward Hacking#Multi-turn Interaction#Code Generation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas논문은 도구-증강 언어 모델 에이전트 훈련의 어려움(수동 개입, 검증 불가능한 시뮬레이션 환경, 불안정한 장기/다중 턴 학습)을 해결하기 위해 완전히 자동화된 종단 간 프레임워크 ASTRA 를 제안합니다.#Review#LLM Agent#Tool Use#Trajectory Synthesis#Reinforcement Learning#Environment Synthesis#Data Generation#Multi-turn Interaction#Automated Training2026년 2월 1일댓글 수 로딩 중
[논문리뷰] RefineBench: Evaluating Refinement Capability of Language Models via Checklists이 논문은 대규모 언어 모델(LM)이 자신의 답변을 스스로 또는 외부 피드백을 통해 얼마나 효과적으로 개선할 수 있는지를 평가하는 것을 목표로 합니다.#Review#Language Models#Refinement Capability#Self-Refinement#Guided Refinement#Checklist Evaluation#Multi-turn Interaction#Benchmark2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning본 논문은 대규모 언어 모델(LLMs)을 복잡한 다중 턴(multi-turn) 상호작용 태스크를 수행하는 에이전트로 훈련시키기 위한 강화 학습(RL)의 효과적인 적용 방안 을 모색합니다.#Review#LLM Agents#Reinforcement Learning#Markov Decision Process#Tool Use#Multi-turn Interaction#Policy Optimization#Reward Shaping#Agent Framework2025년 11월 18일댓글 수 로딩 중
[논문리뷰] RecoWorld: Building Simulated Environments for Agentic Recommender Systems본 논문은 에이전트 기반 추천 시스템(agentic recommender systems) 을 위한 시뮬레이션 환경인 RECOWORLD 의 청사진을 제시하여, 실제 사용자에게 영향을 주지 않고 추천 시스템이 오류로부터 학습하고 전략을 개선할 수 있는 훈련 공간을 제공하는 것을 목표로 합니다.#Review#Agentic Recommender Systems#Simulated Environments#LLM-driven Simulation#Multi-turn Interaction#Reinforcement Learning#User Retention#Instruction Following#Multi-agent Systems2025년 9월 19일댓글 수 로딩 중
[논문리뷰] UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning본 논문은 GUI(Graphical User Interface) 에이전트의 자동화에서 기존 오프라인 RL 의 제한된 다중 턴 추론 능력과 온라인 RL 의 높은 배포 비용 및 희소한 보상 문제를 해결하는 것을 목표로 합니다.#Review#GUI Automation#Reinforcement Learning#Semi-online RL#Offline RL#Online RL#Patch Module#Multi-turn Interaction#Large Language Models2025년 9월 16일댓글 수 로딩 중
[논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue본 논문은 기존 MLLM의 단일 턴 상호작용 및 제한적인 장기 기억 능력 한계를 극복하고자 합니다.#Review#Omni-modal LLM#Audio-Visual Dialogue#Multi-turn Interaction#Speech Generation#Long-term Memory#Multimodal Understanding#End-to-end Training2025년 10월 16일댓글 수 로딩 중
[논문리뷰] BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions대규모 언어 모델(LLM)이 단일 턴 Text-to-SQL 작업에서는 뛰어난 성능을 보이지만, 실제 데이터베이스 애플리케이션에 필요한 다중 턴 상호작용 능력 의 부족 문제를 해결하는 것을 목표로 합니다.#Review#Text-to-SQL#LLM Evaluation#Multi-turn Interaction#Dynamic Environment#User Simulator#Ambiguity Resolution#LLM Agents2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs논문은 LLM이 정적, 단일 턴 데이터로 훈련되어 확장된 다중 턴 상호작용에서 성능이 저하되고 실시간 사용자 피드백에 적응하기 어려운 문제를 해결하고자 합니다.#Review#Large Language Models#Multi-turn Interaction#Test-Time Adaptation#Reinforcement Learning from Human Feedback#Policy Optimization#Online Learning#Self-Correction2025년 10월 1일댓글 수 로딩 중