[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .#Review#Academic Illustration#Visual-Logical Consistency#Benchmark#VQA#Test-Time Scaling#Multimodal Evaluation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Visual-ERM: Reward Modeling for Visual Equivalenceyuhangzang이 arXiv에 게시한 'Visual-ERM: Reward Modeling for Visual Equivalence' 논문에 대한 자세한 리뷰입니다.#Review#Reward Modeling#Vision-to-Code#Reinforcement Learning#Multimodal Generative Model#Visual Equivalence#Fine-grained Feedback#Test-Time Scaling2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Believe Your Model: Distribution-Guided Confidence CalibrationMofei Song이 arXiv에 게시한 'Believe Your Model: Distribution-Guided Confidence Calibration' 논문에 대한 자세한 리뷰입니다.#Review#Confidence Calibration#Test-Time Scaling#Large Reasoning Models (LRMs)#Gaussian Mixture Models (GMM)#Hierarchical Voting#Self-Reflection#Distributional Priors2026년 3월 9일댓글 수 로딩 중
[논문리뷰] From Scale to Speed: Adaptive Test-Time Scaling for Image EditingarXiv에 게시된 'From Scale to Speed: Adaptive Test-Time Scaling for Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Test-Time Scaling#Chain-of-Thought#Diffusion Models#Adaptive Resource Allocation#Edit-Specific Verification#Opportunistic Stopping2026년 3월 2일댓글 수 로딩 중
[논문리뷰] dVoting: Fast Voting for dLLMsarXiv에 게시된 'dVoting: Fast Voting for dLLMs' 논문에 대한 자세한 리뷰입니다.#Review#dLLMs#Diffusion Models#Test-Time Scaling#Voting#Reasoning#Masked Language Models#Parallel Decoding#Remasking2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement LearningarXiv에 게시된 'Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#In-Context Learning#Reinforcement Learning#Test-Time Scaling#Exploration-Exploitation#State Coverage#Reward Shaping#Chain-of-Thought2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative ReasoningarXiv에 게시된 'Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Latent Iterative Reasoning#Adaptive Compute#Recurrent Neural Networks#Robotics#Transformer#Test-Time Scaling#Continuous Action Space2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video ReasoningarXiv에 게시된 'Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Visual Reasoning#Zero-Shot Generalization#Test-Time Scaling#Visual Context#Sequential Planning#Continuous Manipulation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Parallel-Probe: Towards Efficient Parallel Thinking via 2D ProbingarXiv에 게시된 'Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing' 논문에 대한 자세한 리뷰입니다.#Review#LLM Reasoning#Parallel Thinking#Efficiency Optimization#2D Probing#Consensus-based Early Stopping#Deviation-based Branch Pruning#Test-Time Scaling2026년 2월 3일댓글 수 로딩 중
[논문리뷰] FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based AgentsarXiv에 게시된 'FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Deep Research#Long-Horizon Tasks#Test-Time Scaling#File System#Persistent Workspace#Knowledge Base#Dual-Agent Framework2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided VerificationarXiv에 게시된 'Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research Agents#Inference-Time Verification#Self-Evolving LLM Agents#Rubric-Guided Feedback#Failure Taxonomy#Test-Time Scaling#Supervised Fine-tuning2026년 1월 25일댓글 수 로딩 중
[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering AgentsX. W.이 arXiv에 게시한 'SWE-RM: Execution-free Feedback For Software Engineering Agents' 논문에 대한 자세한 리뷰입니다.#Review#Software Engineering Agents#Execution-free Feedback#Reward Model#Reinforcement Learning#Test-Time Scaling#Calibration#AUC#SWE-Bench2025년 12월 28일댓글 수 로딩 중
[논문리뷰] Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from ExperiencearXiv에 게시된 'Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience' 논문에 대한 자세한 리뷰입니다.#Review#Formal Theorem Proving#Large Language Models#Reinforcement Learning#Agentic Prover#Lean Theorem Prover#Mathematical Reasoning#Test-Time Scaling2025년 12월 21일댓글 수 로딩 중
[논문리뷰] GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional EvaluationarXiv에 게시된 'GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation' 논문에 대한 자세한 리뷰입니다.#Review#Visual Grounding#MLLMs#Benchmark#Multi-Dimensional Evaluation#Rejection Capability#Test-Time Scaling#Data Mixture Training2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling ApproachXiu Li이 arXiv에 게시한 'Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Anti-Exploration#Test-Time Scaling#Pseudo-Count#Coin Flipping Network#Offline Reinforcement Learning#Robotics2025년 12월 3일댓글 수 로딩 중
[논문리뷰] The Art of Scaling Test-Time Compute for Large Language ModelsTanmoy Chakraborty이 arXiv에 게시한 'The Art of Scaling Test-Time Compute for Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Test-Time Scaling#LLMs#Reasoning#Compute Efficiency#Inference Optimization#Decoding Strategies#Model Behavior2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving TasksYiran Peng이 arXiv에 게시한 'Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Video Models#Spatial Reasoning#Maze Solving#Video Generation#Benchmark#Supervised Fine-tuning#Test-Time Scaling#Multimodal Reasoning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code GenerationWeihan Wang이 arXiv에 게시한 'UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation' 논문에 대한 자세한 리뷰입니다.#Review#Visual Language Model#UI-to-Code Generation#Interactive UI#UI Editing#UI Polishing#Reinforcement Learning#Multimodal Coding#Test-Time Scaling2025년 11월 16일댓글 수 로딩 중
[논문리뷰] The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched ComputearXiv에 게시된 'The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute' 논문에 대한 자세한 리뷰입니다.#Review#Sequential Reasoning#Parallel Self-Consistency#Inverse-Entropy Voting#LLM Reasoning#Test-Time Scaling#Inference Optimization#Iterative Refinement#Error Correction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Generalizing Test-time Compute-optimal Scaling as an Optimizable GrapharXiv에 게시된 'Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph' 논문에 대한 자세한 리뷰입니다.#Review#Test-Time Scaling#LLMs#Graph Optimization#REINFORCE#Multi-agent Systems#Adaptive Architectures#Compute-optimal Scaling#Probabilistic Graphs2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time ScalingarXiv에 게시된 'RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Video Generation#Prompt Optimization#Large Language Models (LLM)#Test-Time Scaling#Retrieval-Augmented Generation#Diffusion Models#Data Alignment2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Generative Universal Verifier as Multimodal Meta-ReasonerarXiv에 게시된 'Generative Universal Verifier as Multimodal Meta-Reasoner' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Visual Verification#Generative Models#Self-Refinement#Vision-Language Models#Test-Time Scaling#Reasoning2025년 10월 16일댓글 수 로딩 중
[논문리뷰] HoneyBee: Data Recipes for Vision-Language ReasonersarXiv에 게시된 'HoneyBee: Data Recipes for Vision-Language Reasoners' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Data Curation#Chain-of-Thought#VL Reasoning#Dataset Scaling#Supervised Finetuning#HONEYBEE#Test-Time Scaling2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Parallel Test-Time Scaling for Latent Reasoning ModelsarXiv에 게시된 'Parallel Test-Time Scaling for Latent Reasoning Models' 논문에 대한 자세한 리뷰입니다.#Review#Latent Reasoning#Test-Time Scaling#Parallel Inference#Stochastic Sampling#Monte Carlo Dropout#Additive Gaussian Noise#Latent Reward Model#Trajectory Aggregation2025년 10월 13일댓글 수 로딩 중
[논문리뷰] TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular ReasoningarXiv에 게시된 'TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Process Reward Models#Tabular Reasoning#Test-Time Scaling#Tool Integration#Reinforcement Learning#Supervised Fine-tuning#Large Language Models#Data Curation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Making, not Taking, the Best of NarXiv에 게시된 'Making, not Taking, the Best of N' 논문에 대한 자세한 리뷰입니다.#Review#LLM Aggregation#Generative Fusion#Best-of-N#Synthetic Data Generation#Test-Time Scaling#Multilingual Models#Ensemble Learning2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Thinking While Listening: Simple Test Time Scaling For Audio ClassificationMert Pilanci이 arXiv에 게시한 'Thinking While Listening: Simple Test Time Scaling For Audio Classification' 논문에 대한 자세한 리뷰입니다.#Review#Audio Classification#Test-Time Scaling#Reasoning Traces#Large Language Models (LLMs)#Transformer Architectures#Zero-shot Reasoning#Computational Efficiency2025년 9월 26일댓글 수 로딩 중
[논문리뷰] MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late InteractionXintao Chen이 arXiv에 게시한 'MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Retrieval#Late Interaction#Meta Tokens#Matryoshka Representation Learning#Test-Time Scaling#Vision-Language Models#Dense Retrieval#Efficiency2025년 9월 23일댓글 수 로딩 중
[논문리뷰] EconProver: Towards More Economical Test-Time Scaling for Automated Theorem ProvingShansan Gong이 arXiv에 게시한 'EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving' 논문에 대한 자세한 리뷰입니다.#Review#Automated Theorem Proving#LLM#Test-Time Scaling#Chain-of-Thought#Reinforcement Learning#Efficiency Optimization#Token Cost#Sampling Cost#Dynamic CoT Switching2025년 9월 17일댓글 수 로딩 중
[논문리뷰] Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks YetSee-Kiong Ng이 arXiv에 게시한 'Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet' 논문에 대한 자세한 리뷰입니다.#Review#Test-Time Scaling#Reasoning Models#Knowledge-Intensive Tasks#Hallucinations#Factual Accuracy#Chain-of-Thought#Large Language Models2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region ConsistencyZhengxi Lu이 arXiv에 게시한 'Test-Time Reinforcement Learning for GUI Grounding via Region Consistency' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Test-Time Scaling#Reinforcement Learning#Region Consistency#Spatial Voting#Self-Supervised Learning#Vision-Language Models2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time ScalingRuolin Shen이 arXiv에 게시한 'Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling' 논문에 대한 자세한 리뷰입니다.#Review#Visual Document Understanding#Visual Question Answering#Multi-Agent System#Test-Time Scaling#Self-Correction#Mixed Reward Modeling#Large Language Models2025년 8월 8일댓글 수 로딩 중