#Information Gain

3개의 포스트

[논문리뷰] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

저자들은 10K 규모의 Open Data만을 사용하여 4B 규모의 DR-Venus를 훈련하는 2단계 파이프라인을 제안한다. 첫 번째 단계인 Agentic SFT에서는 데이터 정제와 long-horizon 궤적 재샘플링(turn-aware resampling)을 통해 모델의 기초 능력을 확립한다.

#Review #Deep Research Agents #Edge-Scale Models #Open Data #Reinforcement Learning #Information Gain #Supervised Fine-Tuning

2026년 4월 22일

[논문리뷰] InfoPO: Information-Driven Policy Optimization for User-Centric Agents

본 논문은 사용자 중심의 대규모 언어 모델(LLM) 에이전트가 불완전하게 명시된(underspecified) 사용자 목표 를 해결하기 위한 다중 턴(multi-turn) 상호작용의 비효율성 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Information Gain #Credit Assignment #Multi-turn Interaction #User-centric Agents #Counterfactual Reasoning

2026년 3월 3일

[논문리뷰] Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

이 논문은 다중 턴(multi-turn) 대규모 언어 모델(LLM) 에이전트 훈련 시 발생하는 희소한 보상(sparse reward) 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Multi-Turn Interactions #Reward Sparsity #Information Gain #Policy Optimization #Ground-Truth Awareness #Sample Efficiency

2025년 10월 17일