#Test-Time Scaling

45개의 포스트

[논문리뷰] Look Light, Think Heavy: What Multimodal Chain-of-Thought Reasoning Can and Cannot Do

본 논문은 Multimodal CoT가 과연 모든 멀티모달 작업에서 일관되게 성능을 향상시키는지, 그리고 그 한계점은 무엇인지를 체계적으로 분석합니다. 최근 텍스트 중심 LLM에서는 CoT가 추론 능력을 극대화하는 표준으로 자리 잡았으나, 이를 멀티모달 영역으로 확장했을 때의 효용성은 여전히 불분명합니다.

#Review #Multimodal Chain-of-Thought #Visual Reasoning #LLM #Test-Time Scaling #Visual Reflection #Attention Bias

2026년 6월 24일

[논문리뷰] MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling

본 논문은 대규모 언어 모델이 수학적 증명 문제에서 겪는 Hallucination과 Logical Inconsistency 문제를 해결하는 것을 핵심 목표로 합니다.

#Review #Mathematical Reasoning #Reinforcement Learning #Test-Time Scaling #Generative-Verifier #Formal Verification #Scalable Alignment

2026년 6월 11일

[논문리뷰] World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis

본 논문은 기존의 WAM (World-Action Model)과 VLA (Vision-Language-Action Model)가 가진 한계를 극복하기 위해 제안되었다.

#Review #Embodied AI #World Modeling #Language Reasoning #Action Synthesis #Autoregressive Transformer #Test-Time Scaling #Cross-Embodiment

2026년 6월 4일

[논문리뷰] Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

본 논문은 LLM의 추론 성능을 높이기 위한 Test-Time Scaling이 과도한 연산 비용과 지연 시간(Latency)을 초래한다는 문제를 해결하고자 합니다.

#Review #Test-Time Scaling #Adaptive Sampling #Reinforcement Learning #Markov Decision Process #Inference Efficiency #Large Language Models

2026년 6월 2일

[논문리뷰] iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning

본 논문은 MLLM의 fine-grained perception을 향상하기 위해 도입된 Visually Grounded CoT가 오히려 추론 단계에서 성능 저하를 일으킬 수 있다는 문제점을 지적합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Visually Grounded Reasoning #Chain-of-Thought #Dual-Stream Training #Test-Time Scaling

2026년 5월 31일

[논문리뷰] Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

본 연구는 대규모 언어 모델(LLM)이 Deep Research 분야에서 사실 기반의 긴 리포트를 작성할 때 발생하는 불투명성과 시각 자료 활용의 한계를 해결하고자 합니다.

#Review #Multi-Agent System #Multimodal Deep Research #Verifiable Generation #Test-Time Scaling #Visual Working Memory #Report Generation

2026년 5월 28일

[논문리뷰] Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling

기존 병렬 Test-Time Scaling (TTS) 방법론은 Information Isolation Bottleneck이라는 중요한 한계점을 가지고 있습니다.

#Review #Test-Time Scaling #Collaborative Parallel Thinking #Large Language Models #Information Sharing #Redundant Exploration #Accuracy-Latency Pareto Frontier #Mathematical Reasoning

2026년 5월 26일

[논문리뷰] Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

본 논문은 Foundation video generation 모델을 활용하여 학습 없이 무한한 길이의 영상을 일관성 있게 생성하는 것을 목표로 합니다.

#Review #Long Video Generation #Train-Free #Autoregressive Generation #Consistency Enhancement #Diffusion Models #Test-Time Scaling #Temporal Consistency

2026년 5월 20일

[논문리뷰] Process Rewards with Learned Reliability

본 논문은 기존 PRM이 중간 단계에 대해 단일 Scalar 보상값만을 제공하여, 해당 점수의 신뢰도를 평가할 수 없는 한계점을 해결하고자 합니다.

#Review #Process Reward Model #Beta-Binomial #Adaptive Computation Allocation #Test-Time Scaling #Uncertainty Estimation

2026년 5월 19일

[논문리뷰] AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

본 논문은 기존 consistency distillation 기반 모델들이 고정된 NFE budgets에 종속되어 sampling step이 증가할 때 오히려 성능이 저하되는 구조적 한계를 해결하기 위해 AnyFlow를 제안한다.

#Review #Video Diffusion Models #Flow Map #Any-Step Distillation #On-Policy Distillation #Test-Time Scaling #Backward Simulation #Causal Video Generation

2026년 5월 13일

[논문리뷰] LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

본 논문은 기존의 TTS 전략이 연구자들의 직관에 의존하는 수작업(Hand-crafted) 방식이라는 한계점을 해결하고자 합니다.

#Review #Test-Time Scaling #Agentic Discovery #Controller Synthesis #Replay Environment #AutoTTS #Adaptive Inference #Accuracy-Cost Tradeoff

2026년 5월 10일

[논문리뷰] HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

본 논문은 현대의 복잡한 Agentic Harness 설계 이면에 숨겨진 실질적인 성능 구동 메커니즘을 규명하고 이를 단순화하고자 한다. 기존의 오케스트레이션 설계는 시스템이 매우 복잡하여 실질적인 추론 메커니즘을 파악하기 어렵다는 한계가 있었다.

#Review #Agentic Harness #Heavy Thinking #Large Language Model #Test-Time Scaling #Sequential Deliberation #Parallel Reasoning #RLVR

2026년 5월 5일

[논문리뷰] Evaluation-driven Scaling for Scientific Discovery

본 논문은 과학적 발견 과정에서 LLM을 활용한 Trial-and-error 루프의 확장성(Scaling) 문제를 공식화하고 이를 체계적으로 해결하고자 합니다.

#Review #Test-Time Scaling #Scientific Discovery #Evaluation-driven Discovery #LLM #Optimization #Symbolic Laws #GPU Kernel

2026년 4월 21일

[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .

#Review #Academic Illustration #Visual-Logical Consistency #Benchmark #VQA #Test-Time Scaling #Multimodal Evaluation

2026년 4월 2일

[논문리뷰] Visual-ERM: Reward Modeling for Visual Equivalence

Vision-to-Code 작업은 AI 지원 프론트엔드 개발, 과학 논문 파싱, 지식 관리 및 시스템 통합과 같은 다양한 하위 시스템에 필수적인 핵심 기능입니다.

#Review #Reward Modeling #Vision-to-Code #Reinforcement Learning #Multimodal Generative Model #Visual Equivalence #Fine-grained Feedback #Test-Time Scaling

2026년 3월 15일

[논문리뷰] Believe Your Model: Distribution-Guided Confidence Calibration

대규모 추론 모델(LRMs)이 테스트 시 스케일링 기법을 통해 다수의 후보 응답을 생성할 때, 내부 모델의 신뢰도 점수와 분포 정보를 충분히 활용하지 못하여 오답을 확신하는 문제를 해결하고자 합니다. 신뢰도 분포의 사전 정보를 효과적으로 통합하여 답변 선택의 신뢰성을 향상시키는 것을 목표로 합니다.

#Review #Confidence Calibration #Test-Time Scaling #Large Reasoning Models (LRMs)#Gaussian Mixture Models (GMM)#Hierarchical Voting #Self-Reflection #Distributional Priors

2026년 3월 9일

[논문리뷰] From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

본 논문은 이미지 편집 작업의 고유한 특성(목표 지향적, 소스 이미지 및 지침에 의한 제약)을 고려하여, 기존 텍스트-투-이미지(T2I) 중심의 Image Chain-of-Thought (Image-CoT) 방법론의 비효율성을 해결 하는 것을 목표로 합니다.

#Review #Image Editing #Test-Time Scaling #Chain-of-Thought #Diffusion Models #Adaptive Resource Allocation #Edit-Specific Verification #Opportunistic Stopping

2026년 3월 2일

[논문리뷰] dVoting: Fast Voting for dLLMs

본 논문은 확산 대규모 언어 모델( dLLMs )의 추론 능력을 훈련 없이 향상시키면서 기존 테스트 시간 스케일링 기법의 비효율성으로 인한 높은 추론 비용 문제를 해결하는 것을 목표로 합니다. 특히, dLLMs의 유연한 디코딩 프로세스를 활용하여 병렬 테스트 시간 스케일링의 잠재력을 최대한 발휘하고자 합니다.

#Review #dLLMs #Diffusion Models #Test-Time Scaling #Voting #Reasoning #Masked Language Models #Parallel Decoding #Remasking

2026년 2월 12일

[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

본 논문은 LLM이 추론 과정에서 다양한 가설을 생성, 검증, 개선하는 'In-Context Exploration' 능력을 효과적으로 발휘하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #In-Context Learning #Reinforcement Learning #Test-Time Scaling #Exploration-Exploitation #State Coverage #Reward Shaping #Chain-of-Thought

2026년 2월 12일

[논문리뷰] Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

기존 VLA 모델의 고정된 연산 깊이로 인한 비효율성과 토큰 기반 추론의 메모리 및 연속적인 액션 공간 한계를 해결합니다. 태스크 복잡도에 따라 테스트 시 연산량을 동적으로 조절 하고, 일정한 메모리 공간 을 유지하며 로봇 제어 를 위한 효율적인 추론 메커니즘을 제공하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Latent Iterative Reasoning #Adaptive Compute #Recurrent Neural Networks #Robotics #Transformer #Test-Time Scaling #Continuous Action Space

2026년 2월 9일

[논문리뷰] Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

본 논문은 기존 MLLMs가 겪는 미세한 공간 이해 및 연속적인 행동 계획의 한계를 극복하고, 복잡한 시각적 추론을 위한 새로운 패러다임을 제시하는 것을 목표로 합니다.

#Review #Video Generation #Visual Reasoning #Zero-Shot Generalization #Test-Time Scaling #Visual Context #Sequential Planning #Continuous Manipulation

2026년 2월 5일

[논문리뷰] Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

대규모 언어 모델(LLM)의 병렬 추론 시 발생하는 상당한 계산 비용 문제를 해결하고, 기존의 로컬 신호 기반 효율성 증대 방법론의 한계를 극복하고자 합니다. 병렬 브랜치 간의 전역적인 동역학을 활용하여 효율적이고 하드웨어 친화적인 병렬적 사고를 위한 경량화된 글로벌 신호를 도입하는 것이 주된 목표입니다.

#Review #LLM Reasoning #Parallel Thinking #Efficiency Optimization #2D Probing #Consensus-based Early Stopping #Deviation-based Branch Pruning #Test-Time Scaling

2026년 2월 3일

[논문리뷰] FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents

본 논문은 대규모 언어 모델(LLM) 에이전트가 긴 호라이즌의 심층 연구 작업을 수행할 때 발생하는 컨텍스트 창 제한 문제를 해결하고자 합니다. 이는 토큰 예산을 압축하고 효과적인 테스트 시간 스케일링을 방해하여 보고서의 불완전한 커버리지와 낮은 품질을 초래합니다.

#Review #LLM Agents #Deep Research #Long-Horizon Tasks #Test-Time Scaling #File System #Persistent Workspace #Knowledge Base #Dual-Agent Framework

2026년 2월 2일

[논문리뷰] Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

본 논문은 Deep Research Agents (DRAs)의 신뢰할 수 없는 출력(예: 환각, 오류) 문제를 해결하고, 특히 추론 시점(inference time) 에 에이전트의 성능을 향상시키는 것을 목표로 합니다.

#Review #Deep Research Agents #Inference-Time Verification #Self-Evolving LLM Agents #Rubric-Guided Feedback #Failure Taxonomy #Test-Time Scaling #Supervised Fine-tuning

2026년 1월 25일

[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering Agents

본 논문은 소프트웨어 엔지니어링(SWE) 에이전트 개발에서 실행 기반 피드백(execution-based feedback) 의 한계(희소성, 낮은 식별 능력)를 극복하고자 합니다.

#Review #Software Engineering Agents #Execution-free Feedback #Reward Model #Reinforcement Learning #Test-Time Scaling #Calibration #AUC #SWE-Bench

2025년 12월 28일

[논문리뷰] Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

본 논문은 학부 및 대학원 수준 이상의 수학 문제에 대한 형식적 정리 증명(Formal Theorem Proving)의 효율성과 성능을 개선하는 것을 목표로 합니다. 특히, LLM 기반의 형식적 증명에서 나타나는 높은 계산 비용과 도전 과제를 해결하며, 자연어 증명과 형식어 증명 간의 간극을 효과적으로 연결하고자 합니다.

#Review #Formal Theorem Proving #Large Language Models #Reinforcement Learning #Agentic Prover #Lean Theorem Prover #Mathematical Reasoning #Test-Time Scaling

2025년 12월 21일

[논문리뷰] GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

본 연구는 기존 벤치마크에서 MLLM(Multimodal Large Language Models)이 달성한 높은 성능에도 불구하고, 인간과 유사한 시각적 접지(visual grounding) 능력 을 실제 복잡한 시나리오에서 갖추고 있는지 근본적인 질문을 던집니다.

#Review #Visual Grounding #MLLMs #Benchmark #Multi-Dimensional Evaluation #Rejection Capability #Test-Time Scaling #Data Mixture Training

2025년 12월 21일

[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

사전 학습된 Vision-Language-Action (VLA) 모델 을 지도 미세 조정(SFT)한 후 추론 시 발생하는 불안정성 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action Models #Anti-Exploration #Test-Time Scaling #Pseudo-Count #Coin Flipping Network #Offline Reinforcement Learning #Robotics

2025년 12월 3일

[논문리뷰] The Art of Scaling Test-Time Compute for Large Language Models

이 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위한 테스트-타임 스케일링(TTS) 전략의 최적 선택 문제를 해결하는 것을 목표로 합니다.

#Review #Test-Time Scaling #LLMs #Reasoning #Compute Efficiency #Inference Optimization #Decoding Strategies #Model Behavior

2025년 12월 1일

[논문리뷰] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

본 논문은 비디오 모델의 추론 능력, 특히 비디오 생성 을 통한 추론 능력을 체계적으로 평가하기 위한 포괄적인 벤치마크의 부재를 해결합니다.

#Review #Video Models #Spatial Reasoning #Maze Solving #Video Generation #Benchmark #Supervised Fine-tuning #Test-Time Scaling #Multimodal Reasoning

2025년 11월 19일

[논문리뷰] UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

본 논문은 UI(사용자 인터페이스) 코딩에서 기존 시각 언어 모델(VLM) 의 제한적인 멀티모달 코딩 능력과 단일 턴 생성 패러다임의 한계를 극복하고자 합니다.

#Review #Visual Language Model #UI-to-Code Generation #Interactive UI #UI Editing #UI Polishing #Reinforcement Learning #Multimodal Coding #Test-Time Scaling

2025년 11월 16일

[논문리뷰] The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute

본 논문은 언어 모델의 추론 작업을 위한 테스트-타임 스케일링 전략에 대해 근본적인 질문을 던집니다. 동일한 토큰 예산과 컴퓨팅 자원이 주어졌을 때, 독립적인 체인을 병렬로 실행하는 것이 효율적인지, 아니면 순차적인 단계들을 통해 반복적으로 개선하는 것이 더 나은 성능을 보이는지 비교 분석하는 것을 목표로 합니다.

#Review #Sequential Reasoning #Parallel Self-Consistency #Inverse-Entropy Voting #LLM Reasoning #Test-Time Scaling #Inference Optimization #Iterative Refinement #Error Correction

2025년 11월 9일

[논문리뷰] Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph

본 논문은 고정된 컴퓨팅 예산 내에서 대규모 언어 모델(LLM)의 테스트 시간 컴퓨팅 최적 스케일링(Test-Time Scaling, TTS) 을 일반화하고 최적화하는 새로운 문제를 다룹니다.

#Review #Test-Time Scaling #LLMs #Graph Optimization #REINFORCE #Multi-agent Systems #Adaptive Architectures #Compute-optimal Scaling #Probabilistic Graphs

2025년 11월 9일

[논문리뷰] Thinking While Listening: Simple Test Time Scaling For Audio Classification

본 논문은 오디오 분류 성능 향상을 위해 신경망 모델이 '듣는 동안 생각하는(thinking while listening)' 능력을 갖추도록 하는 프레임워크를 제안합니다.

#Review #Audio Classification #Test-Time Scaling #Reasoning Traces #Large Language Models (LLMs)#Transformer Architectures #Zero-shot Reasoning #Computational Efficiency

2025년 9월 26일

[논문리뷰] MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

기존 멀티모달 검색 방법론들이 단일 벡터 임베딩의 표현력 한계에 부딪히거나, 다수의 토큰으로 인한 다중 벡터 방식의 계산 비용 문제로 확장성에 제약을 받는 문제를 해결하고자 합니다. 유연한 테스트 시간 임베딩 세분화 제어를 통해 확장 가능하며 높은 정확도를 유지하는 멀티모달 검색 패러다임을 개발하는 것이 주 목표입니다.

#Review #Multimodal Retrieval #Late Interaction #Meta Tokens #Matryoshka Representation Learning #Test-Time Scaling #Vision-Language Models #Dense Retrieval #Efficiency

2025년 9월 23일

[논문리뷰] EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving

논문은 LLM 기반의 Automated Theorem Proving(ATP) 모델들이 Chain-of-Thought (CoT) 추론 및 다중 샘플링 패스 와 같은 test-time scaling 전략을 사용하며 발생하는 높은 계산 비용과 자원 비효율성을 해결하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #LLM #Test-Time Scaling #Chain-of-Thought #Reinforcement Learning #Efficiency Optimization #Token Cost #Sampling Cost #Dynamic CoT Switching

2025년 9월 17일

[논문리뷰] Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

본 논문은 지식 집약적 태스크에서 Test-Time Scaling 기법이 모델의 정확도와 환각(hallucination) 감소에 효과적인지 종합적으로 평가하는 것을 목표로 합니다.

#Review #Test-Time Scaling #Reasoning Models #Knowledge-Intensive Tasks #Hallucinations #Factual Accuracy #Chain-of-Thought #Large Language Models

2025년 9월 9일

[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

이 논문은 픽셀 수준 주석의 높은 비용 과 기존 훈련 방식의 한계 로 인해 GUI 접지(grounding)의 성능 확장성에 제약이 있다는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Test-Time Scaling #Reinforcement Learning #Region Consistency #Spatial Voting #Self-Supervised Learning #Vision-Language Models

2025년 8월 13일

[논문리뷰] Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling

본 연구는 기존 비전-언어 모델(VLMs)이 매개변수 규모에 제약이 있고, 견고한 자가 수정 능력이 부족하며, 긴 시각적 맥락과 복잡한 추론을 요구하는 문서 기반 태스크에서 저조한 성능을 보이는 문제를 해결하고자 합니다.

#Review #Visual Document Understanding #Visual Question Answering #Multi-Agent System #Test-Time Scaling #Self-Correction #Mixed Reward Modeling #Large Language Models

2025년 8월 8일

[논문리뷰] RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling

본 논문은 사용자 제공 프롬프트가 짧고 구조화되지 않으며 훈련 데이터와 불일치하여 확산 기반 T2V 모델 의 생성 잠재력을 제한하는 문제를 해결합니다. 생성 백본 모델을 수정하지 않으면서 T2V 생성 품질 을 대폭 향상시키기 위한 프롬프트 최적화 프레임워크를 제안하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Prompt Optimization #Large Language Models (LLM)#Test-Time Scaling #Retrieval-Augmented Generation #Diffusion Models #Data Alignment

2025년 10월 27일

[논문리뷰] Generative Universal Verifier as Multimodal Meta-Reasoner

본 논문은 차세대 멀티모달 추론 및 통합 모델을 위한 생성형 범용 검증기(Generative Universal Verifier, GUV) 개념과 플러그인을 소개합니다.

#Review #Multimodal AI #Visual Verification #Generative Models #Self-Refinement #Vision-Language Models #Test-Time Scaling #Reasoning

2025년 10월 16일

[논문리뷰] HoneyBee: Data Recipes for Vision-Language Reasoners

본 연구는 고성능 시각-언어(VL) 추론 훈련 데이터셋 구축의 원리를 규명하고, 다양한 데이터 큐레이션 접근 방식이 VL 추론 능력에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.

#Review #Vision-Language Models #Data Curation #Chain-of-Thought #VL Reasoning #Dataset Scaling #Supervised Finetuning #HONEYBEE #Test-Time Scaling

2025년 10월 15일

[논문리뷰] Parallel Test-Time Scaling for Latent Reasoning Models

본 논문은 latent reasoning models 가 연속적인 벡터 공간에서 추론을 수행함에도 불구하고, 기존 token-based models 처럼 parallel Test-Time Scaling (TTS) 의 이점을 활용하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Latent Reasoning #Test-Time Scaling #Parallel Inference #Stochastic Sampling #Monte Carlo Dropout #Additive Gaussian Noise #Latent Reward Model #Trajectory Aggregation

2025년 10월 13일

[논문리뷰] TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

본 논문은 기존의 Process Reward Models (PRMs) 이 표 기반 추론 태스크에서 테이블 검색(Table Retrieval) 및 스키마 상호작용(Schema Interaction) 과 같은 테이블 특정 작업에서 한계를 보이며, 신뢰할 수 있는 스텝-레벨 감독을 제공하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Process Reward Models #Tabular Reasoning #Test-Time Scaling #Tool Integration #Reinforcement Learning #Supervised Fine-tuning #Large Language Models #Data Curation

2025년 10월 8일

[논문리뷰] Making, not Taking, the Best of N

본 논문은 기존 Best-of-N (BON) 방식이 여러 LLM 생성물 중 하나만을 선택하여 잠재적으로 유용한 정보를 버리는 제로섬 게임이라는 문제점을 지적합니다.

#Review #LLM Aggregation #Generative Fusion #Best-of-N #Synthetic Data Generation #Test-Time Scaling #Multilingual Models #Ensemble Learning

2025년 10월 2일