#Multi-turn Reasoning

5개의 포스트

[논문리뷰] When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

본 연구는 Multi-turn Reasoning 환경에서 모델의 CoT가 실제 최종 답변의 정확도를 보장하지 않으며, 오히려 논리적 모순을 유발할 수 있다는 점을 문제로 제기합니다.

#Review #Multi-turn Reasoning #Chain of Thought #Failure Modes #Faithfulness #LLM Evaluation

2026년 6월 9일

[논문리뷰] SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

본 논문은 Reinforcement Learning (RL)을 사용하여 Multi-turn Tool-Integrated Reasoning (TIR)을 수행하는 Large Language Models (LLMs)의 훈련 시 발생하는 불안정성, 특히 그래디언트 폭발 과 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Tool-Integrated Reasoning #Multi-turn Reasoning #Gradient Explosion #Training Stability #Trajectory Filtering #Zero RL

2025년 9월 3일

[논문리뷰] Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

본 논문은 기존의 다중 턴 에이전트가 낮은 태스크 복잡도와 컨텍스트 관리의 한계로 인해 장기적인 상호작용에서 깊은 추론 능력을 발휘하지 못하는 문제를 해결하고자 합니다.

#Review #Deep Search Agents #Dynamic Context Window #Reinforcement Learning #Long-horizon Interaction #Context Management #High-difficulty Tasks #Multi-turn Reasoning #Web Agents

2025년 10월 10일

[논문리뷰] In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

이 논문은 기존의 도구 증강 LLM 접근 방식이 긴 추론 과정과 다양한 도구 사용에서 확장성이 떨어지고 새로운 시나리오에 대한 일반화 능력이 약하다는 문제를 제기합니다.

#Review #Agentic Systems #Large Language Models (LLMs)#Tool Use #Reinforcement Learning (RL)#On-policy Optimization #Flow-based Group Refined Policy Optimization (Flow-GRPO)#Multi-turn Reasoning

2025년 10월 8일

[논문리뷰] In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning

본 연구는 다중 턴(multi-turn) 추론 과정에서 대규모 언어 모델(LLMs)이 사용자 피드백을 신뢰성 있게 통합하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Feedback #Multi-turn Reasoning #In-place Editing #Token Efficiency #Error Correction #Human-AI Interaction #Reasoning Tasks

2025년 10월 2일