[논문리뷰] iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning본 논문은 MLLM의 fine-grained perception을 향상하기 위해 도입된 Visually Grounded CoT가 오히려 추론 단계에서 성능 저하를 일으킬 수 있다는 문제점을 지적합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Visually Grounded Reasoning#Chain-of-Thought#Dual-Stream Training#Test-Time Scaling2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation본 연구는 대규모 언어 모델(LLM)이 Deep Research 분야에서 사실 기반의 긴 리포트를 작성할 때 발생하는 불투명성과 시각 자료 활용의 한계를 해결하고자 합니다.#Review#Multi-Agent System#Multimodal Deep Research#Verifiable Generation#Test-Time Scaling#Visual Working Memory#Report Generation2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling기존 병렬 Test-Time Scaling (TTS) 방법론은 Information Isolation Bottleneck이라는 중요한 한계점을 가지고 있습니다.#Review#Test-Time Scaling#Collaborative Parallel Thinking#Large Language Models#Information Sharing#Redundant Exploration#Accuracy-Latency Pareto Frontier#Mathematical Reasoning2026년 5월 26일댓글 수 로딩 중
[논문리뷰] Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos본 논문은 Foundation video generation 모델을 활용하여 학습 없이 무한한 길이의 영상을 일관성 있게 생성하는 것을 목표로 합니다.#Review#Long Video Generation#Train-Free#Autoregressive Generation#Consistency Enhancement#Diffusion Models#Test-Time Scaling#Temporal Consistency2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Process Rewards with Learned Reliability본 논문은 기존 PRM이 중간 단계에 대해 단일 Scalar 보상값만을 제공하여, 해당 점수의 신뢰도를 평가할 수 없는 한계점을 해결하고자 합니다.#Review#Process Reward Model#Beta-Binomial#Adaptive Computation Allocation#Test-Time Scaling#Uncertainty Estimation2026년 5월 19일댓글 수 로딩 중
[논문리뷰] AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation본 논문은 기존 consistency distillation 기반 모델들이 고정된 NFE budgets에 종속되어 sampling step이 증가할 때 오히려 성능이 저하되는 구조적 한계를 해결하기 위해 AnyFlow를 제안한다.#Review#Video Diffusion Models#Flow Map#Any-Step Distillation#On-Policy Distillation#Test-Time Scaling#Backward Simulation#Causal Video Generation2026년 5월 13일댓글 수 로딩 중
[논문리뷰] LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling본 논문은 기존의 TTS 전략이 연구자들의 직관에 의존하는 수작업(Hand-crafted) 방식이라는 한계점을 해결하고자 합니다.#Review#Test-Time Scaling#Agentic Discovery#Controller Synthesis#Replay Environment#AutoTTS#Adaptive Inference#Accuracy-Cost Tradeoff2026년 5월 10일댓글 수 로딩 중
[논문리뷰] HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness본 논문은 현대의 복잡한 Agentic Harness 설계 이면에 숨겨진 실질적인 성능 구동 메커니즘을 규명하고 이를 단순화하고자 한다. 기존의 오케스트레이션 설계는 시스템이 매우 복잡하여 실질적인 추론 메커니즘을 파악하기 어렵다는 한계가 있었다.#Review#Agentic Harness#Heavy Thinking#Large Language Model#Test-Time Scaling#Sequential Deliberation#Parallel Reasoning#RLVR2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Evaluation-driven Scaling for Scientific Discovery본 논문은 과학적 발견 과정에서 LLM을 활용한 Trial-and-error 루프의 확장성(Scaling) 문제를 공식화하고 이를 체계적으로 해결하고자 합니다.#Review#Test-Time Scaling#Scientific Discovery#Evaluation-driven Discovery#LLM#Optimization#Symbolic Laws#GPU Kernel2026년 4월 21일댓글 수 로딩 중
[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .#Review#Academic Illustration#Visual-Logical Consistency#Benchmark#VQA#Test-Time Scaling#Multimodal Evaluation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Visual-ERM: Reward Modeling for Visual EquivalenceVision-to-Code 작업은 AI 지원 프론트엔드 개발, 과학 논문 파싱, 지식 관리 및 시스템 통합과 같은 다양한 하위 시스템에 필수적인 핵심 기능입니다.#Review#Reward Modeling#Vision-to-Code#Reinforcement Learning#Multimodal Generative Model#Visual Equivalence#Fine-grained Feedback#Test-Time Scaling2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Believe Your Model: Distribution-Guided Confidence Calibration대규모 추론 모델(LRMs)이 테스트 시 스케일링 기법을 통해 다수의 후보 응답을 생성할 때, 내부 모델의 신뢰도 점수와 분포 정보를 충분히 활용하지 못하여 오답을 확신하는 문제를 해결하고자 합니다. 신뢰도 분포의 사전 정보를 효과적으로 통합하여 답변 선택의 신뢰성을 향상시키는 것을 목표로 합니다.#Review#Confidence Calibration#Test-Time Scaling#Large Reasoning Models (LRMs)#Gaussian Mixture Models (GMM)#Hierarchical Voting#Self-Reflection#Distributional Priors2026년 3월 9일댓글 수 로딩 중
[논문리뷰] From Scale to Speed: Adaptive Test-Time Scaling for Image Editing본 논문은 이미지 편집 작업의 고유한 특성(목표 지향적, 소스 이미지 및 지침에 의한 제약)을 고려하여, 기존 텍스트-투-이미지(T2I) 중심의 Image Chain-of-Thought (Image-CoT) 방법론의 비효율성을 해결 하는 것을 목표로 합니다.#Review#Image Editing#Test-Time Scaling#Chain-of-Thought#Diffusion Models#Adaptive Resource Allocation#Edit-Specific Verification#Opportunistic Stopping2026년 3월 2일댓글 수 로딩 중
[논문리뷰] dVoting: Fast Voting for dLLMs본 논문은 확산 대규모 언어 모델( dLLMs )의 추론 능력을 훈련 없이 향상시키면서 기존 테스트 시간 스케일링 기법의 비효율성으로 인한 높은 추론 비용 문제를 해결하는 것을 목표로 합니다. 특히, dLLMs의 유연한 디코딩 프로세스를 활용하여 병렬 테스트 시간 스케일링의 잠재력을 최대한 발휘하고자 합니다.#Review#dLLMs#Diffusion Models#Test-Time Scaling#Voting#Reasoning#Masked Language Models#Parallel Decoding#Remasking2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning본 논문은 LLM이 추론 과정에서 다양한 가설을 생성, 검증, 개선하는 'In-Context Exploration' 능력을 효과적으로 발휘하지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models#In-Context Learning#Reinforcement Learning#Test-Time Scaling#Exploration-Exploitation#State Coverage#Reward Shaping#Chain-of-Thought2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning기존 VLA 모델의 고정된 연산 깊이로 인한 비효율성과 토큰 기반 추론의 메모리 및 연속적인 액션 공간 한계를 해결합니다. 태스크 복잡도에 따라 테스트 시 연산량을 동적으로 조절 하고, 일정한 메모리 공간 을 유지하며 로봇 제어 를 위한 효율적인 추론 메커니즘을 제공하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Latent Iterative Reasoning#Adaptive Compute#Recurrent Neural Networks#Robotics#Transformer#Test-Time Scaling#Continuous Action Space2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning본 논문은 기존 MLLMs가 겪는 미세한 공간 이해 및 연속적인 행동 계획의 한계를 극복하고, 복잡한 시각적 추론을 위한 새로운 패러다임을 제시하는 것을 목표로 합니다.#Review#Video Generation#Visual Reasoning#Zero-Shot Generalization#Test-Time Scaling#Visual Context#Sequential Planning#Continuous Manipulation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing대규모 언어 모델(LLM)의 병렬 추론 시 발생하는 상당한 계산 비용 문제를 해결하고, 기존의 로컬 신호 기반 효율성 증대 방법론의 한계를 극복하고자 합니다. 병렬 브랜치 간의 전역적인 동역학을 활용하여 효율적이고 하드웨어 친화적인 병렬적 사고를 위한 경량화된 글로벌 신호를 도입하는 것이 주된 목표입니다.#Review#LLM Reasoning#Parallel Thinking#Efficiency Optimization#2D Probing#Consensus-based Early Stopping#Deviation-based Branch Pruning#Test-Time Scaling2026년 2월 3일댓글 수 로딩 중
[논문리뷰] FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents본 논문은 대규모 언어 모델(LLM) 에이전트가 긴 호라이즌의 심층 연구 작업을 수행할 때 발생하는 컨텍스트 창 제한 문제를 해결하고자 합니다. 이는 토큰 예산을 압축하고 효과적인 테스트 시간 스케일링을 방해하여 보고서의 불완전한 커버리지와 낮은 품질을 초래합니다.#Review#LLM Agents#Deep Research#Long-Horizon Tasks#Test-Time Scaling#File System#Persistent Workspace#Knowledge Base#Dual-Agent Framework2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification본 논문은 Deep Research Agents (DRAs)의 신뢰할 수 없는 출력(예: 환각, 오류) 문제를 해결하고, 특히 추론 시점(inference time) 에 에이전트의 성능을 향상시키는 것을 목표로 합니다.#Review#Deep Research Agents#Inference-Time Verification#Self-Evolving LLM Agents#Rubric-Guided Feedback#Failure Taxonomy#Test-Time Scaling#Supervised Fine-tuning2026년 1월 25일댓글 수 로딩 중
[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering Agents본 논문은 소프트웨어 엔지니어링(SWE) 에이전트 개발에서 실행 기반 피드백(execution-based feedback) 의 한계(희소성, 낮은 식별 능력)를 극복하고자 합니다.#Review#Software Engineering Agents#Execution-free Feedback#Reward Model#Reinforcement Learning#Test-Time Scaling#Calibration#AUC#SWE-Bench2025년 12월 28일댓글 수 로딩 중
[논문리뷰] Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience본 논문은 학부 및 대학원 수준 이상의 수학 문제에 대한 형식적 정리 증명(Formal Theorem Proving)의 효율성과 성능을 개선하는 것을 목표로 합니다. 특히, LLM 기반의 형식적 증명에서 나타나는 높은 계산 비용과 도전 과제를 해결하며, 자연어 증명과 형식어 증명 간의 간극을 효과적으로 연결하고자 합니다.#Review#Formal Theorem Proving#Large Language Models#Reinforcement Learning#Agentic Prover#Lean Theorem Prover#Mathematical Reasoning#Test-Time Scaling2025년 12월 21일댓글 수 로딩 중
[논문리뷰] GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation본 연구는 기존 벤치마크에서 MLLM(Multimodal Large Language Models)이 달성한 높은 성능에도 불구하고, 인간과 유사한 시각적 접지(visual grounding) 능력 을 실제 복잡한 시나리오에서 갖추고 있는지 근본적인 질문을 던집니다.#Review#Visual Grounding#MLLMs#Benchmark#Multi-Dimensional Evaluation#Rejection Capability#Test-Time Scaling#Data Mixture Training2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach사전 학습된 Vision-Language-Action (VLA) 모델 을 지도 미세 조정(SFT)한 후 추론 시 발생하는 불안정성 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action Models#Anti-Exploration#Test-Time Scaling#Pseudo-Count#Coin Flipping Network#Offline Reinforcement Learning#Robotics2025년 12월 3일댓글 수 로딩 중
[논문리뷰] The Art of Scaling Test-Time Compute for Large Language Models이 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위한 테스트-타임 스케일링(TTS) 전략의 최적 선택 문제를 해결하는 것을 목표로 합니다.#Review#Test-Time Scaling#LLMs#Reasoning#Compute Efficiency#Inference Optimization#Decoding Strategies#Model Behavior2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks본 논문은 비디오 모델의 추론 능력, 특히 비디오 생성 을 통한 추론 능력을 체계적으로 평가하기 위한 포괄적인 벤치마크의 부재를 해결합니다.#Review#Video Models#Spatial Reasoning#Maze Solving#Video Generation#Benchmark#Supervised Fine-tuning#Test-Time Scaling#Multimodal Reasoning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation본 논문은 UI(사용자 인터페이스) 코딩에서 기존 시각 언어 모델(VLM) 의 제한적인 멀티모달 코딩 능력과 단일 턴 생성 패러다임의 한계를 극복하고자 합니다.#Review#Visual Language Model#UI-to-Code Generation#Interactive UI#UI Editing#UI Polishing#Reinforcement Learning#Multimodal Coding#Test-Time Scaling2025년 11월 16일댓글 수 로딩 중
[논문리뷰] The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute본 논문은 언어 모델의 추론 작업을 위한 테스트-타임 스케일링 전략에 대해 근본적인 질문을 던집니다. 동일한 토큰 예산과 컴퓨팅 자원이 주어졌을 때, 독립적인 체인을 병렬로 실행하는 것이 효율적인지, 아니면 순차적인 단계들을 통해 반복적으로 개선하는 것이 더 나은 성능을 보이는지 비교 분석하는 것을 목표로 합니다.#Review#Sequential Reasoning#Parallel Self-Consistency#Inverse-Entropy Voting#LLM Reasoning#Test-Time Scaling#Inference Optimization#Iterative Refinement#Error Correction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph본 논문은 고정된 컴퓨팅 예산 내에서 대규모 언어 모델(LLM)의 테스트 시간 컴퓨팅 최적 스케일링(Test-Time Scaling, TTS) 을 일반화하고 최적화하는 새로운 문제를 다룹니다.#Review#Test-Time Scaling#LLMs#Graph Optimization#REINFORCE#Multi-agent Systems#Adaptive Architectures#Compute-optimal Scaling#Probabilistic Graphs2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Thinking While Listening: Simple Test Time Scaling For Audio Classification본 논문은 오디오 분류 성능 향상을 위해 신경망 모델이 '듣는 동안 생각하는(thinking while listening)' 능력을 갖추도록 하는 프레임워크를 제안합니다.#Review#Audio Classification#Test-Time Scaling#Reasoning Traces#Large Language Models (LLMs)#Transformer Architectures#Zero-shot Reasoning#Computational Efficiency2025년 9월 26일댓글 수 로딩 중
[논문리뷰] MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction기존 멀티모달 검색 방법론들이 단일 벡터 임베딩의 표현력 한계에 부딪히거나, 다수의 토큰으로 인한 다중 벡터 방식의 계산 비용 문제로 확장성에 제약을 받는 문제를 해결하고자 합니다. 유연한 테스트 시간 임베딩 세분화 제어를 통해 확장 가능하며 높은 정확도를 유지하는 멀티모달 검색 패러다임을 개발하는 것이 주 목표입니다.#Review#Multimodal Retrieval#Late Interaction#Meta Tokens#Matryoshka Representation Learning#Test-Time Scaling#Vision-Language Models#Dense Retrieval#Efficiency2025년 9월 23일댓글 수 로딩 중
[논문리뷰] EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving논문은 LLM 기반의 Automated Theorem Proving(ATP) 모델들이 Chain-of-Thought (CoT) 추론 및 다중 샘플링 패스 와 같은 test-time scaling 전략을 사용하며 발생하는 높은 계산 비용과 자원 비효율성을 해결하는 것을 목표로 합니다.#Review#Automated Theorem Proving#LLM#Test-Time Scaling#Chain-of-Thought#Reinforcement Learning#Efficiency Optimization#Token Cost#Sampling Cost#Dynamic CoT Switching2025년 9월 17일댓글 수 로딩 중
[논문리뷰] Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet본 논문은 지식 집약적 태스크에서 Test-Time Scaling 기법이 모델의 정확도와 환각(hallucination) 감소에 효과적인지 종합적으로 평가하는 것을 목표로 합니다.#Review#Test-Time Scaling#Reasoning Models#Knowledge-Intensive Tasks#Hallucinations#Factual Accuracy#Chain-of-Thought#Large Language Models2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency이 논문은 픽셀 수준 주석의 높은 비용 과 기존 훈련 방식의 한계 로 인해 GUI 접지(grounding)의 성능 확장성에 제약이 있다는 문제를 해결하고자 합니다.#Review#GUI Grounding#Test-Time Scaling#Reinforcement Learning#Region Consistency#Spatial Voting#Self-Supervised Learning#Vision-Language Models2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling본 연구는 기존 비전-언어 모델(VLMs)이 매개변수 규모에 제약이 있고, 견고한 자가 수정 능력이 부족하며, 긴 시각적 맥락과 복잡한 추론을 요구하는 문서 기반 태스크에서 저조한 성능을 보이는 문제를 해결하고자 합니다.#Review#Visual Document Understanding#Visual Question Answering#Multi-Agent System#Test-Time Scaling#Self-Correction#Mixed Reward Modeling#Large Language Models2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Generative Universal Verifier as Multimodal Meta-Reasoner본 논문은 차세대 멀티모달 추론 및 통합 모델을 위한 생성형 범용 검증기(Generative Universal Verifier, GUV) 개념과 플러그인을 소개합니다.#Review#Multimodal AI#Visual Verification#Generative Models#Self-Refinement#Vision-Language Models#Test-Time Scaling#Reasoning2025년 10월 16일댓글 수 로딩 중
[논문리뷰] HoneyBee: Data Recipes for Vision-Language Reasoners본 연구는 고성능 시각-언어(VL) 추론 훈련 데이터셋 구축의 원리를 규명하고, 다양한 데이터 큐레이션 접근 방식이 VL 추론 능력에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.#Review#Vision-Language Models#Data Curation#Chain-of-Thought#VL Reasoning#Dataset Scaling#Supervised Finetuning#HONEYBEE#Test-Time Scaling2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Parallel Test-Time Scaling for Latent Reasoning Models본 논문은 latent reasoning models 가 연속적인 벡터 공간에서 추론을 수행함에도 불구하고, 기존 token-based models 처럼 parallel Test-Time Scaling (TTS) 의 이점을 활용하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Latent Reasoning#Test-Time Scaling#Parallel Inference#Stochastic Sampling#Monte Carlo Dropout#Additive Gaussian Noise#Latent Reward Model#Trajectory Aggregation2025년 10월 13일댓글 수 로딩 중
[논문리뷰] TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning본 논문은 기존의 Process Reward Models (PRMs) 이 표 기반 추론 태스크에서 테이블 검색(Table Retrieval) 및 스키마 상호작용(Schema Interaction) 과 같은 테이블 특정 작업에서 한계를 보이며, 신뢰할 수 있는 스텝-레벨 감독을 제공하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Process Reward Models#Tabular Reasoning#Test-Time Scaling#Tool Integration#Reinforcement Learning#Supervised Fine-tuning#Large Language Models#Data Curation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling본 논문은 사용자 제공 프롬프트가 짧고 구조화되지 않으며 훈련 데이터와 불일치하여 확산 기반 T2V 모델 의 생성 잠재력을 제한하는 문제를 해결합니다. 생성 백본 모델을 수정하지 않으면서 T2V 생성 품질 을 대폭 향상시키기 위한 프롬프트 최적화 프레임워크를 제안하는 것을 목표로 합니다.#Review#Text-to-Video Generation#Prompt Optimization#Large Language Models (LLM)#Test-Time Scaling#Retrieval-Augmented Generation#Diffusion Models#Data Alignment2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Making, not Taking, the Best of N본 논문은 기존 Best-of-N (BON) 방식이 여러 LLM 생성물 중 하나만을 선택하여 잠재적으로 유용한 정보를 버리는 제로섬 게임이라는 문제점을 지적합니다.#Review#LLM Aggregation#Generative Fusion#Best-of-N#Synthetic Data Generation#Test-Time Scaling#Multilingual Models#Ensemble Learning2025년 10월 2일댓글 수 로딩 중