[논문리뷰] T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning본 논문은 다회차 Agentic RL 환경에서 빈번하게 발생하는 Training Collapse 현상을 해결하고자 합니다.#Review#Agentic Reinforcement Learning#Multi-Turn Reasoning#Uncertainty-Guided Exploration#Token-Level Thinking Intervention#Turn-Level Dynamical Sampling#Training Stability2026년 5월 4일댓글 수 로딩 중
[논문리뷰] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning본 논문은 기존 SOTA 비디오 추론 모델이 단일 턴 추론 방식에 의존하며 대량의 프레임을 처리하는 비효율성을 지적합니다.#Review#Video Reasoning#Reinforcement Learning#Multi-Turn Reasoning#Agent System#Long Videos#Synthetic Data#Any-Horizon Reasoning#Large Language Models2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search기존 오픈소스 VLM(Vision-Language Model)의 단조로운 추론 패턴과 제한된 상호작용 턴 수로 인해 시행착오적 탐색 이 필요한 어려운 시각 검색 작업을 해결하지 못하는 문제를 다룹니다.#Review#Visual Search#Multi-Turn Reasoning#Reinforcement Learning#Tool-Integrated Agents#Exploratory Reasoning#Data Augmentation#Over-turn Masking#Visual Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding본 논문은 장시간 비디오 이해의 난제를 해결하고자 합니다.#Review#Long Video Understanding#Reinforcement Learning#Multi-Turn Reasoning#MLLMs#Video Segment Selection#Bi-level Reward#Question Answering2025년 9월 5일댓글 수 로딩 중