[논문리뷰] Unsupervised Process Reward Models본 논문은 기존 PRM 학습에 필수적인 인간 전문가의 단계별 주석 데이터가 갖는 높은 비용과 확장성 문제를 해결하고자 합니다.#Review#Unsupervised Learning#Process Reward Models#Reinforcement Learning#Reasoning#Test-time Scaling#LLM-as-a-Judge2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning본 논문은 현재 T2I(Text-to-Image) 모델이 의존하는 single-step generation 패러다임의 한계를 극복하고자 합니다.#Review#Text-to-Image Generation#Chain-of-Thought#Reinforcement Learning#Diffusion Models#Test-time Scaling#Model Alignment#Efficient Inference2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling본 연구는 고도의 수학 및 과학 Olympiad 문제에서 금메달 수준의 추론 능력을 갖춘 모델을 만들기 위한 간단하고 통합된 레시피를 제안합니다. 기존의 일반적인 추론 모델들은 수학적 문제 해결에서 단기적인 성과를 내지만, 복잡한 증명 문제에 필요한 엄격한 추론과 검증 능력이 부족하다는 한계가 있습니다.#Review#Olympiad Reasoning#Reinforcement Learning#Test-time Scaling#Supervised Fine-tuning#Reasoning Models#Proof-search#Reverse-Perplexity Curriculum2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Reasoning Shift: How Context Silently Shortens LLM Reasoning본 연구는 모델이 동일한 문제를 Baseline, Subtask, Long input, Multi-turn 등 서로 다른 4가지 Context 조건에서 해결하도록 설계하여 추론 성능과 생성된 토큰 수를 측정했습니다. 실험 결과, 모델은 고립된 환경(Baseline) 대비 다른 조건들에서 최대 50%까지 짧은 추론 트레이스를 생성하는 현상을 보였습니다.#Review#Large Language Models#Chain-of-Thought#Test-time Scaling#Context Management#Reasoning Shift#Self-verification#Overthinking2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design최근 Deep Research 분야는 급격히 발전했으나, 기존 에이전트 시스템은 QA 데이터 합성, 궤적 생성, 추론 단계에서 명시적인 검증 기법이 부재하다는 치명적인 한계를 가진다. 이로 인해 초기 단계의 오류가 하위 단계로 전파되어 전체 성능을 크게 저하시키는 문제가 발생한다 .#Review#Deep Research#Agentic Search#Verification-Centric Design#Data Synthesis#Test-time Scaling#ReAct#Multi-agent Systems2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets현재 다국어 LLM 평가 의 신뢰도를 저해하는 번역 벤치마크의 일관성 없는 품질(의미론적 드리프트 및 문맥 손실) 문제를 해결하는 것입니다. 본 연구는 데이터셋과 벤치마크를 확장 가능하고 고품질 로 번역하며, 원본 작업 구조와 언어적 뉘앙스를 보존하는 완전 자동화된 프레임워크를 제시하는 것을 목표로 합니다.#Review#Automated Translation#Large Language Models#Multilingual Benchmarks#Benchmark Quality#Test-time Scaling#Universal Self-Improvement#Translation Ranking#Eastern European Languages2026년 3월 1일댓글 수 로딩 중
[논문리뷰] UniT: Unified Multimodal Chain-of-Thought Test-time Scaling본 논문은 기존 통합 멀티모달 모델들이 단일 패스로만 작동하여 반복적인 개선 없이 출력을 생성하는 한계를 지적합니다. 복잡한 공간 구성, 다중 객체 상호작용, 진화하는 지침 등 다단계 추론과 자가 수정이 필요한 멀티모달 작업에서 이러한 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal AI#Chain-of-Thought#Test-time Scaling#Unified Models#Iterative Reasoning#Image Generation#Visual Reasoning#Self-Correction2026년 2월 17일댓글 수 로딩 중
[논문리뷰] SAGE: Benchmarking and Improving Retrieval for Deep Research Agents본 논문은 심층 연구 에이전트 워크플로우에서 LLM 기반 검색기 가 얼마나 효과적으로 기여할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.#Review#Deep Research Agents#Scientific Literature Retrieval#LLM-based Retrievers#Benchmarking#Test-time Scaling#Information Retrieval#Query Decomposition#RAG2026년 2월 5일댓글 수 로딩 중
[논문리뷰] SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling이 논문은 대규모 언어 모델(LLMs)의 수학적 추론 과정에서 발생하는 성능 병목 현상을 해결하는 것을 목표로 합니다.#Review#LLM Reasoning#Test-time Scaling#Resource Allocation#Dual-process Theory#Mathematical Reasoning#Adaptive Computation#Performance Optimization2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Budget-Aware Tool-Use Enables Effective Agent Scaling이 논문은 대규모 언어 모델(LLM) 기반 에이전트의 효과적인 테스트 시간 스케일링(test-time scaling) 에 대한 연구를 목표로 합니다. 특히, 도구 사용 에이전트가 명시적인 예산 제약 조건 하에서 외부 환경과의 상호작용(도구 호출)을 어떻게 효율적으로 활용하여 성능을 최적화할 수 있는지를 탐구합니다.#Review#LLM Agents#Tool Use#Budget Awareness#Test-time Scaling#Cost-Performance#Web Search Agents#Planning#Self-Verification2025년 11월 24일댓글 수 로딩 중
[논문리뷰] What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT본 논문은 대규모 추론 모델(LRMs)에서 효과적인 CoT(Chain-of-Thought) 추론의 특성을 규명하는 것을 목표로 합니다. 특히, 기존의 '길수록 좋다'는 CoT 길이 및 검토(review) 증가 경향에 의문을 제기하고, 추론 과정의 어휘적, 구조적 특성이 정확도에 미치는 영향을 체계적으로 분석하고자 합니다.#Review#Chain-of-Thought#Reasoning Effectiveness#Large Reasoning Models#Failed-Step Fraction#Test-time Scaling#Reasoning Graph#Model Evaluation2025년 9월 24일댓글 수 로딩 중
[논문리뷰] AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks본 논문은 기존 연구가 주로 단일 단계 태스크에 집중했던 것과 달리, 다단계 복합 태스크 에서 테스트 시점 컴퓨팅 최적 스케일링 이라는 새로운 문제를 해결하고자 합니다. 이는 총 컴퓨팅 예산 내에서 각 서브태스크에 적합한 LLM 모델을 선택하고 예산을 할당하여 전반적인 성능을 최대화 하는 것을 목표로 합니다.#Review#Large Language Models#LLM Agents#Test-time Scaling#Compute Optimization#Multi-stage Tasks#Resource Allocation#Search Efficiency2025년 8월 5일댓글 수 로딩 중
[논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions기존 대규모 언어 모델(LLM) 수학 벤치마크들의 성능 포화 문제 를 해결하고, LLM의 고급 수학적 추론 능력을 보다 엄격하게 평가하기 위한 새로운 벤치마크 AMO-Bench를 제안하는 것이 목표입니다.#Review#LLM Evaluation#Mathematical Reasoning#Olympiad-level Math#Benchmark#Performance Saturation#Test-time Scaling#AMO-Bench2025년 10월 31일댓글 수 로딩 중