[논문리뷰] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data저자들은 10K 규모의 Open Data만을 사용하여 4B 규모의 DR-Venus를 훈련하는 2단계 파이프라인을 제안한다. 첫 번째 단계인 Agentic SFT에서는 데이터 정제와 long-horizon 궤적 재샘플링(turn-aware resampling)을 통해 모델의 기초 능력을 확립한다.#Review#Deep Research Agents#Edge-Scale Models#Open Data#Reinforcement Learning#Information Gain#Supervised Fine-Tuning2026년 4월 22일댓글 수 로딩 중
[논문리뷰] InfoPO: Information-Driven Policy Optimization for User-Centric Agents본 논문은 사용자 중심의 대규모 언어 모델(LLM) 에이전트가 불완전하게 명시된(underspecified) 사용자 목표 를 해결하기 위한 다중 턴(multi-turn) 상호작용의 비효율성 문제를 다룹니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Information Gain#Credit Assignment#Multi-turn Interaction#User-centric Agents#Counterfactual Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents이 논문은 다중 턴(multi-turn) 대규모 언어 모델(LLM) 에이전트 훈련 시 발생하는 희소한 보상(sparse reward) 문제를 해결하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Multi-Turn Interactions#Reward Sparsity#Information Gain#Policy Optimization#Ground-Truth Awareness#Sample Efficiency2025년 10월 17일댓글 수 로딩 중