[논문리뷰] Reasoning Shift: How Context Silently Shortens LLM Reasoning본 연구는 모델이 동일한 문제를 Baseline, Subtask, Long input, Multi-turn 등 서로 다른 4가지 Context 조건에서 해결하도록 설계하여 추론 성능과 생성된 토큰 수를 측정했습니다. 실험 결과, 모델은 고립된 환경(Baseline) 대비 다른 조건들에서 최대 50%까지 짧은 추론 트레이스를 생성하는 현상을 보였습니다.#Review#Large Language Models#Chain-of-Thought#Test-time Scaling#Context Management#Reasoning Shift#Self-verification#Overthinking2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric DesignJunyang Ren이 arXiv에 게시한 'Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research#Agentic Search#Verification-Centric Design#Data Synthesis#Test-time Scaling#ReAct#Multi-agent Systems2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and DatasetsarXiv에 게시된 'Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets' 논문에 대한 자세한 리뷰입니다.#Review#Automated Translation#Large Language Models#Multilingual Benchmarks#Benchmark Quality#Test-time Scaling#Universal Self-Improvement#Translation Ranking#Eastern European Languages2026년 3월 1일댓글 수 로딩 중
[논문리뷰] UniT: Unified Multimodal Chain-of-Thought Test-time ScalingAnimesh Sinha이 arXiv에 게시한 'UniT: Unified Multimodal Chain-of-Thought Test-time Scaling' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Chain-of-Thought#Test-time Scaling#Unified Models#Iterative Reasoning#Image Generation#Visual Reasoning#Self-Correction2026년 2월 17일댓글 수 로딩 중
[논문리뷰] SAGE: Benchmarking and Improving Retrieval for Deep Research AgentsChen Zhao이 arXiv에 게시한 'SAGE: Benchmarking and Improving Retrieval for Deep Research Agents' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research Agents#Scientific Literature Retrieval#LLM-based Retrievers#Benchmarking#Test-time Scaling#Information Retrieval#Query Decomposition#RAG2026년 2월 5일댓글 수 로딩 중
[논문리뷰] SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time ScalingarXiv에 게시된 'SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling' 논문에 대한 자세한 리뷰입니다.#Review#LLM Reasoning#Test-time Scaling#Resource Allocation#Dual-process Theory#Mathematical Reasoning#Adaptive Computation#Performance Optimization2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Budget-Aware Tool-Use Enables Effective Agent ScalingarXiv에 게시된 'Budget-Aware Tool-Use Enables Effective Agent Scaling' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Tool Use#Budget Awareness#Test-time Scaling#Cost-Performance#Web Search Agents#Planning#Self-Verification2025년 11월 24일댓글 수 로딩 중
[논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math CompetitionsarXiv에 게시된 'AMO-Bench: Large Language Models Still Struggle in High School Math Competitions' 논문에 대한 자세한 리뷰입니다.#Review#LLM Evaluation#Mathematical Reasoning#Olympiad-level Math#Benchmark#Performance Saturation#Test-time Scaling#AMO-Bench2025년 10월 31일댓글 수 로딩 중
[논문리뷰] What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoTAnthony Hartshorn이 arXiv에 게시한 'What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT' 논문에 대한 자세한 리뷰입니다.#Review#Chain-of-Thought#Reasoning Effectiveness#Large Reasoning Models#Failed-Step Fraction#Test-time Scaling#Reasoning Graph#Model Evaluation2025년 9월 24일댓글 수 로딩 중
[논문리뷰] AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex TasksZhiwei Zhang이 arXiv에 게시한 'AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#LLM Agents#Test-time Scaling#Compute Optimization#Multi-stage Tasks#Resource Allocation#Search Efficiency2025년 8월 5일댓글 수 로딩 중