#Reasoning

86개의 포스트

[논문리뷰] ESPO: Early-Stopping Proximal Policy Optimization

본 논문은 LLM의 다단계 추론(Multi-step reasoning) 과정에서 발생하는 연산 비효율성과 잘못된 학습 신호 문제를 해결하기 위해 ESPO를 제안한다.

#Review #Reinforcement Learning #Large Language Models #Proximal Policy Optimization #Early Stopping #Reasoning #Compute Efficiency #Credit Assignment

2026년 6월 1일

[논문리뷰] From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

본 연구는 기존 VLM이 Perception과 Reasoning 기능을 동시에 학습함으로써 발생하는 성능 저하와 최적화 불균형 문제를 해결하기 위해 시작되었습니다.

#Review #Vision-Language Models #Post-Training #Perception #Reasoning #Decoupling #Multimodal Learning

2026년 5월 24일

[논문리뷰] ETCHR: Editing To Clarify and Harness Reasoning

ETCHR은 LLM의 CoT 생성 과정에 존재하는 논리적 결함과 불필요한 노이즈가 최종 성능을 저하시키는 문제를 해결하기 위해 고안되었습니다. 기존 LLM은 긴 Reasoning Path를 생성할 때 고수준의 논리적 일관성을 유지하는 데 한계를 보이며, 이는 결과적으로 정답률 감소로 이어집니다.

#Review #Chain-of-Thought #Reasoning #Model Editing #Inference Optimization #LLM #Knowledge Distillation #Interpretability

2026년 5월 24일

[논문리뷰] Unsupervised Process Reward Models

본 논문은 기존 PRM 학습에 필수적인 인간 전문가의 단계별 주석 데이터가 갖는 높은 비용과 확장성 문제를 해결하고자 합니다.

#Review #Unsupervised Learning #Process Reward Models #Reinforcement Learning #Reasoning #Test-time Scaling #LLM-as-a-Judge

2026년 5월 21일

[논문리뷰] Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

본 논문은 LLM의 추론 능력을 강화하기 위한 on-policy self-distillation 기법이 수학적 추론 과제에서 일관된 성능 향상을 보이지 못하는 문제를 해결합니다.

#Review #Reinforcement Learning #Self-Distillation #Reasoning #Pointwise Mutual Information #LLM #GRPO #Jensen-Shannon Divergence

2026년 5월 19일

[논문리뷰] Nexus : An Agentic Framework for Time Series Forecasting

본 논문은 기존 TSFM과 LLM 기반 시계열 예측 연구가 가진 구조적 한계를 해결하기 위해 Nexus를 제안한다.

#Review #Time Series Forecasting #Large Language Models #Agentic Framework #Multimodal #Reasoning #Temporal Dynamics #Calibration

2026년 5월 14일

[논문리뷰] Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

본 논문은 대규모 LLM의 추론 성능 향상을 위한 고비용의 post-training(instruction tuning, RL 등) 과정을 배제하고, 기존 Checkpoint 내에 잠재된 능력을 재조합하는 비용 효율적인 대안을 제시합니다.

#Review #Model Merging #Evolutionary Optimization #Large Language Models #Reasoning #Diagnostic-Guided #Training-Free

2026년 5월 14일

[논문리뷰] Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning

본 논문은 LLM 추론 능력 향상에 필수적이라고 여겨지는 RL이 실제로 새로운 전략을 학습하는 것이 아니라, 베이스 모델 내에 이미 존재하는 솔루션들의 확률 분포를 재조정하는 것임을 밝힙니다. 기존의 RLVR은 전체 토큰에 대해 비효율적으로 경사 하강법을 수행하지만, 실제 추론 성능 개선은 극히 일부 지점에서 발생합니다.

#Review #Large Language Models #Reinforcement Learning #Reasoning #Decision Points #Sparse Policy Selection #Contrastive Fine-Tuning #Entropy-Gated

2026년 5월 10일

[논문리뷰] Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

본 논문은 현재의 Critic-free, group-based RLVR 기법들이 사용하는 advantage normalization이 실제로는 응답 심플렉스 위에서 잠재적인 목표 분포를 암묵적으로 구성하고 있음을 규명합니다.

#Review #RLVR #Policy Optimization #Listwise #Target-Projection #Large Language Models #Reasoning #Gibbs Target

2026년 5월 10일

[논문리뷰] Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

본 논문은 HDPO 프레임워크를 제안하여 태스크 정확도와 도구 효율성을 orthogonal하게 최적화합니다. 제안 방법론은 accuracy 채널과 efficiency 채널을 명확히 분리하며, efficiency 채널은 오직 정확한 결과를 도출한 경로(trajectory) 내에서만 도구 사용을 최소화하도록 조건부 advantage를 계산합니다 .

#Review #Multimodal Large Language Models #Agentic Systems #Reinforcement Learning #Hierarchical Decoupled Policy Optimization #Meta-Cognitive Tool Use #Efficiency #Reasoning

2026년 4월 9일

[논문리뷰] Learning to Hint for Reinforcement Learning

본 논문은 GRPO 학습 중 어려운 문제에서 발생하는 Advantage Collapse 문제를 해결하고, 힌트가 모델의 실제 추론 능력 향상으로 이어지도록 하는 Transferability 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #Hint Generation #Advantage Collapse #Transferability

2026년 4월 8일

[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice를 제안합니다. ThinkTwice는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 .

#Review #Large Language Models #Reinforcement Learning #Reasoning #Self-Refinement #RLVR #Policy Optimization #Implicit Curriculum

2026년 4월 7일

[논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

본 논문은 기존 KV Cache 압축 기법들이 post-RoPE 공간의 제한된 관측치에 의존하여 발생하는 불안정성 문제를 해결하고자 합니다. 기존 방식들은 회전이 적용된 post-RoPE 쿼리를 사용하므로, 대표성 있는 쿼리 확보가 어려워 중요한 토큰이 조기에 삭제되는 현상이 빈번합니다 .

#Review #KV Cache #LLM #Attention #RoPE #Compression #Reasoning

2026년 4월 6일

[논문리뷰] Can LLMs Learn to Reason Robustly under Noisy Supervision?

본 연구는 RLVR 학습 환경에서 불가피하게 발생하는 noisy label이 모델의 추론 성능에 미치는 치명적인 영향과 기존 연구의 한계를 체계적으로 분석합니다.

#Review #RLVR #Noisy Label Learning #Online Label Refinement #Early Correctness Coherence #Large Language Models #Reasoning

2026년 4월 6일

[논문리뷰] Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

본 논문은 대규모 언어 모델의 일반적인 추론 성능을 향상시키면서, 불필요하게 긴 추론(Overthinking)을 방지하여 추론 비용과 지연 시간(Latency)을 최소화하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Chain-of-Thought #Efficiency #RLVR #Multi-Domain #Reasoning

2026년 4월 2일

[논문리뷰] daVinci-LLM:Towards the Science of Pretraining

현재 LLM 생태계는 상업적 모델의 폐쇄성과 학계 모델의 컴퓨팅 자원 부족이라는 구조적 역설(Structural Paradox)에 직면해 있습니다.

#Review #Pretraining #Data Darwinism #LLM #Transparency #Data Processing #Scaling Laws #Reasoning

2026년 3월 31일

[논문리뷰] Think Anywhere in Code Generation

기존의 Upfront Thinking 방식은 코드 생성 과정에서 발생하는 복잡한 문제 상황이나 예외적인 케이스들을 사전에 모두 예측하기 어렵다는 결정적인 한계가 있습니다 . 코드를 구현하는 도중에 문제의 복잡성이 드러나는 경우가 많음에도 불구하고, 기존 방식은 코드 생성 시작 전에만 추론을 수행하도록 제한되어 있습니다.

#Review #Code Generation #Large Language Models #Reasoning #Reinforcement Learning #On-demand Reasoning #Adaptive Computation

2026년 3월 31일

[논문리뷰] PLDR-LLMs Reason At Self-Organized Criticality

본 연구는 Large Language Models (LLMs)에서 reasoning 능력이 어떻게 발현되며 이를 어떻게 효과적으로 정량화할 수 있는지에 대한 핵심 문제를 다룬다.

#Review #PLDR-LLMs #Self-Organized Criticality #Reasoning #Deductive Outputs #Order Parameter #Phase Transitions #Generalization #Attention Mechanism

2026년 3월 25일

[논문리뷰] Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Reinforcement Learning (RL)은 LLM Post-Training의 핵심으로 부상하며 Reasoning, Agentic Capabilities, Real-World Problem-Solving 발전에 기여하고 있습니다.

#Review #LLM Post-Training #Cascade RL #Multi-Domain On-Policy Distillation #Mixture-of-Experts #Reasoning #Agentic Capabilities #Competitive Programming #Mathematical Olympiad

2026년 3월 19일

[논문리뷰] Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

본 논문은 복잡한 논리적 분해가 필요 없는 단순한 단일 홉 사실 질문에서 LLM의 추론이 어떻게 파라메트릭 지식 회상에 영향을 미치는지 밝히는 것을 목표로 합니다. 추론이 직관과 달리 모델의 지식 경계를 확장하는 메커니즘을 이해하고, 이를 통해 모델 정확도를 개선할 수 있는 실용적인 전략을 제시하고자 합니다.

#Review #LLMs #Reasoning #Parametric Knowledge #Factual Recall #Hallucination #Computational Buffer #Factual Priming #Chain-of-Thought

2026년 3월 10일

[논문리뷰] Recursive Think-Answer Process for LLMs and VLMs

현재 Think-Answer 모델 들은 단일 패스(single-pass) 추론에 의존하여 'Oops!'와 같은 불확실성 신호를 보여도 자체 수정을 수행하지 못하고 오류에 취약합니다.

#Review #LLMs #VLMs #Reasoning #Self-Correction #Reinforcement Learning #Confidence Estimation #Iterative Refinement #Think-Answer

2026년 3월 2일

[논문리뷰] LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval

본 논문은 강력한 추론 능력을 가진 LLM 기반 dense retriever 가 복잡한 쿼리에 대해 높은 지연 시간 없이 추론 능력을 활용하지 못하는 문제를 해결하고자 합니다.

#Review #Dense Retrieval #LLMs #Reasoning #Knowledge Distillation #Latent Space #Self-Distillation #Chain-of-Thought

2026년 3월 2일

[논문리뷰] DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

LLM 추론을 위한 RLVR 훈련에서 발생하는 제한적인 탐색(limited exploration) 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 불충분한 로컬 무작위성이나 단일 스케일 다양성 조절에 그쳐 정책이 소수의 추론 패턴으로 수렴하고 깊은 탐색이 조기에 중단되는 문제를 극복하고자 합니다.

#Review #Large Language Models (LLM)#Reinforcement Learning with Verifiers (RLVR)#Exploration #Diversity Regularization #Dual-Scale #Reasoning #Policy Optimization

2026년 2월 23일

[논문리뷰] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts

컴팩트한 30억(3B) 파라미터 규모의 모델인 Nanbeige4.1-3B 를 개발하여 강력한 에이전트 행동, 코드 생성 및 일반적인 추론 능력을 동시에 달성하는 것을 목표로 합니다. 단일 소규모 언어 모델(SLM) 내에서 이러한 다재다능성을 입증하고, 3B 파라미터 모델의 잠재력을 재정의하고자 합니다.

#Review #Small Language Model #Generalist AI #Reasoning #Code Generation #Agentic Behavior #Reinforcement Learning #Tool Use #Deep Search

2026년 2월 16일

[논문리뷰] LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models

본 논문은 기존 확산 언어 모델(dLLMs) 기반 추론 시스템이 겪는 태스크 특이성, RL 학습 불안정성, 훈련 신호 부족 등의 문제를 해결하고자 합니다.

#Review #Multimodal Diffusion Models #Reasoning #Reinforcement Learning #Supervised Finetuning #Visual Question Answering #Image Editing #Object Grounding #Policy Gradient

2026년 2월 16일

[논문리뷰] dVoting: Fast Voting for dLLMs

본 논문은 확산 대규모 언어 모델( dLLMs )의 추론 능력을 훈련 없이 향상시키면서 기존 테스트 시간 스케일링 기법의 비효율성으로 인한 높은 추론 비용 문제를 해결하는 것을 목표로 합니다. 특히, dLLMs의 유연한 디코딩 프로세스를 활용하여 병렬 테스트 시간 스케일링의 잠재력을 최대한 발휘하고자 합니다.

#Review #dLLMs #Diffusion Models #Test-Time Scaling #Voting #Reasoning #Masked Language Models #Parallel Decoding #Remasking

2026년 2월 12일

[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

본 논문은 대규모 언어 모델(LLM)이 새롭고 복잡한 과학 정보에 대해 추론하는 능력의 불확실성을 해결하는 것을 목표로 합니다.

#Review #Retrieval-Augmented Generation #Large Language Models #Reasoning #Benchmark #Deep Search #Error Analysis #Scientific Problem Solving #Context Understanding

2026년 2월 5일

[논문리뷰] The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

이 논문은 Diffusion Large Language Models (dLLMs)의 핵심 이점으로 여겨지는 임의 순서(arbitrary order) 생성 능력 이 실제 추론 잠재력을 제한한다는 역설적인 현상을 밝히고, dLLM의 추론 능력을 더 효과적으로 이끌어내기 위한 새로운 RL 방법론 을 제시하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Reasoning #Reinforcement Learning #Autoregressive Models #Generation Order #Entropy Degradation #Pass@k #GRPO

2026년 1월 22일

[논문리뷰] Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론이 길고 저대역폭의 이산 토큰 시퀀스를 생성하는 문제점을 해결하고, 인간처럼 여러 가능한 다음 단계에 대한 분포를 유지하며 추론하는 확률적이고 샘플링 기반의 연속적 추론 메커니즘 을 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Reasoning #Chain-of-Thought #Reinforcement Learning #Stochastic Reasoning #Continuous Representation #Token Efficiency

2026년 1월 19일

[논문리뷰] Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

대규모 언어 모델(LLM) 기반 에이전트가 '얕은 그라운딩(shallow grounding)' 문제로 인해 행동의 장기적 결과를 예측하지 못하여 발생하는 실패를 해결하는 것이 목표입니다.

#Review #LLM Agents #World Models #Adaptive Planning #Lookahead #Reinforcement Learning #POMDP #Task Planning #Reasoning

2026년 1월 14일

[논문리뷰] MemoBrain: Executive Memory as an Agentic Brain for Reasoning

본 논문은 도구 증강 에이전트 환경에서 장기적인 추론 과정 중 발생하는 LLM의 유한한 컨텍스트 문제 를 해결하고자 합니다.

#Review #Executive Memory #LLM Agents #Reasoning #Context Management #Tool-Augmented Agents #Memory Management #Trajectory Folding #Preference Optimization

2026년 1월 13일

[논문리뷰] JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 RLVR(Reinforcement Learning with Verifiable Rewards) 이 흔히 유발하는 장황하고 비효율적인 탐색 문제를 해결하고자 합니다.

#Review #RLVR #LLMs #Reasoning #Judge-then-Generate #Quality-Efficiency #Discriminative Supervision #Mathematical Reasoning #Backtracking Reduction

2026년 1월 13일

[논문리뷰] DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs

논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 노출 편향(exposure bias) 과 오류 누적 문제를 해결하는 것을 목표로 합니다.

#Review #Chain-of-Thought #Diffusion Models #Large Language Models #Reasoning #Error Correction #Preference Optimization #Denoising

2026년 1월 8일

[논문리뷰] ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

본 연구는 다중 모달 생성 모델을 활용한 지시 기반 이미지 편집에서 시각적 추론 능력의 한계 를 해결하고자 합니다. 특히, 기존 RL 방법론의 제한된 추론 탐색, 편향된 보상 통합, 불안정한 VLM 기반 지시 보상 문제를 극복하여, 추론 중심의 이미지 편집 품질을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reasoning #Chain-of-Thought #Multimodal Generative Models #Reward Modeling #VLM

2026년 1월 7일

[논문리뷰] Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

본 연구는 7B 파라미터의 소규모 언어 모델(SLM)인 Falcon-H1R 이 대규모 모델(2배에서 7배 더 큼)과 경쟁하거나 능가하는 추론 성능을 달성할 수 있음을 입증하는 것을 목표로 합니다.

#Review #Reasoning #Small Language Models (SLMs)#Hybrid Architecture #Test-Time Scaling (TTS)#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#DeepConf #Computational Efficiency

2026년 1월 5일

[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Strategy #Gradient-Guided #Reward Shaping #Reasoning #PPO

2025년 12월 17일

[논문리뷰] ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

본 논문은 강력한 Vision-Language Model (VLM) 을 탑재한 최신 비디오 통합 모델들이 추론 기반 시각 편집(reason-informed visual editing) 에서 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Editing #Reasoning #Unified Models #Self-Reflective Learning #Vision-Language Models (VLMs)#Diffusion Models #RVE-Bench

2025년 12월 11일

[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual Worlds

SIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.

#Review #Embodied AI #Generalist Agent #Virtual Worlds #Foundation Models #Gemini #Self-Improvement #Dialogue #Reasoning #Reinforcement Learning

2025년 12월 4일

[논문리뷰] SkillFactory: Self-Distillation For Learning Cognitive Behaviors

본 논문은 기반 언어 모델(LLM)이 처음부터 갖추지 못한 인지적 스킬(예: 검증, 백트래킹, 재시도) 을 외부의 더 강력한 모델 없이 스스로 학습하도록 하는 SkillFactory 프레임워크를 제안합니다. 이를 통해 모델이 복잡한 추론 태스크에서 더 잘 일반화하고 견고성을 갖추도록 하는 것을 목표로 합니다.

#Review #Self-Distillation #Cognitive Skills #Reinforcement Learning #Supervised Fine-Tuning #Language Models #Reasoning #Verification #Retrying

2025년 12월 3일

[논문리뷰] PretrainZero: Reinforcement Active Pretraining

본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Active Learning #Pretraining #Large Language Models #Self-Supervised Learning #Masked Language Modeling #Generalization #Reasoning

2025년 12월 3일

[논문리뷰] C^2DLM: Causal Concept-Guided Diffusion Large Language Models

본 논문은 Autoregressive (AR) 및 Diffusion Language Models (DLMs)의 불충분한 추론 능력 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Large Language Models #Causality #Attention Mechanism #Reasoning #Natural Language Generation #Supervised Fine-Tuning #Concept-Guided

2025년 12월 2일

[논문리뷰] The Art of Scaling Test-Time Compute for Large Language Models

이 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위한 테스트-타임 스케일링(TTS) 전략의 최적 선택 문제를 해결하는 것을 목표로 합니다.

#Review #Test-Time Scaling #LLMs #Reasoning #Compute Efficiency #Inference Optimization #Decoding Strategies #Model Behavior

2025년 12월 1일

[논문리뷰] Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM

이 논문은 대규모 언어 모델(LLM)이 복잡한 다단계 추론 능력을 갖추고 있음에도 불구하고 높은 연산 요구사항으로 인해 엣지 또는 비용에 민감한 환경에서의 배포가 어렵다는 문제를 해결하고자 합니다.

#Review #Small Language Models #Data Efficiency #Reasoning #Maximal-Update Parameterization #FP8 Mixed Precision #Optimizer Scheduling #Long-Context Adaptation #Agent AI

2025년 11월 30일

[논문리뷰] Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

본 논문은 통합 멀티모달 모델(UMMs)에서 '이해' 능력이 '생성' 과정에 실제로 정보를 제공하고 안내하는지 여부를 조사합니다.

#Review #Unified Multimodal Models #Understanding-Generation Gap #Reasoning #Knowledge Transfer #Chain-of-Thought #Self-Training #Synthetic Data #Evaluation Framework

2025년 11월 25일

[논문리뷰] MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

대규모 언어 모델(LLMs) 기반 멀티 에이전트 추론 시스템이 보상 잡음(reward noise) 과 훈련 비효율성 으로 인해 오픈 소스 모델에 일반화되기 어려운 문제를 해결하는 것이 목표입니다.

#Review #Multi-Agent Systems #Reinforcement Learning #LLMs #Pipeline Parallelism #Reasoning #Reward Shaping #Agentic AI

2025년 11월 16일

[논문리뷰] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

이 논문은 소규모 모델이 강력한 추론 능력을 갖추기 어렵다는 기존의 통념에 도전하고, 1.5B 파라미터 의 경량 모델인 VibeThinker-1.5B 가 대규모 모델에 필적하는 추론 능력을 경제적으로 달성할 수 있음을 입증하는 것을 목표로 합니다.

#Review #Small Language Models #Reasoning #Diversity Optimization #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Spectrum-to-Signal Principle (SSP)#Mathematical Reasoning #Code Generation

2025년 11월 11일

[논문리뷰] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

MLLM(Multimodal Large Language Models)의 추론 능력 향상을 목표로 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Post-training #Reasoning #Dual-Reward System #Thinking Reward #Judging Reward #Hallucination Reduction

2025년 11월 9일

[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

본 논문은 에이전트 시대의 추론 및 행동을 위한 시각 중심 코딩의 미개척 영역을 탐구합니다. 기존 RGB 픽셀 기반 이미지 표현의 제한된 상징적 추상화를 넘어서, 이미지를 SVG 코드 와 같은 압축적이고 해석 가능하며 실행 가능한 시각적 표현으로 변환하는 것을 목표로 합니다.

#Review #Multimodal AI #Code Generation #SVG #Visual Representation #Benchmark #Large Vision-Language Models #Agentic AI #Reasoning

2025년 11월 9일

[논문리뷰] left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles

논문은 Vision-Language Models (VLMs)이 Rebus Puzzles 를 이해하고 해결하는 능력을 평가하기 위한 크고 다양한 멀티모달 벤치마크를 제시하는 것을 목표로 합니다.

#Review #Vision-Language Models #Multimodal Benchmark #Rebus Puzzles #In-Context Learning #Reasoning #ControlNet #Prompt Engineering

2025년 11월 9일

[논문리뷰] UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

본 논문은 기존의 멀티모달 대규모 언어 모델(MLLMs) 기반 임베딩 모델 이 판별적(discriminative)이라는 한계를 해결하고, 추론 중심의 생성 패러다임의 이점을 활용하는 것을 목표로 합니다.

#Review #Multimodal Embeddings #Generative AI #Reasoning #Reinforcement Learning #MLLMs #Supervised Fine-tuning #Information Retrieval #Unified Embeddings

2025년 11월 9일

[논문리뷰] Variational Reasoning for Language Models

언어 모델(LLM)의 추론 능력 훈련에 사용되는 지도 미세 조정(SFT) 및 강화 학습(RL) 방법론의 한계를 극복하고, 생각 과정(thinking traces) 을 잠재 변수 로 간주하여 변분 추론(Variational Inference) 을 통해 최적화하는 원칙적이고 안정적인 프레임워크를 제시하는 것을 목표로 합니다.

#Review #Variational Inference #Language Models #Reasoning #ELBO #IWAE #Reinforcement Learning #Latent Variables #Forward-KL

2025년 9월 29일

[논문리뷰] PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

LLM 추론을 위한 고품질 훈련 문제의 부족이라는 핵심 병목 현상을 해결하고자 합니다.

#Review #Prompt Synthesis #Large Language Models #Reasoning #Expectation-Maximization #Self-Play #Supervised Fine-Tuning #Task Generation #Rationale Generation

2025년 9월 29일

[논문리뷰] Thinking Augmented Pre-training

본 논문은 대규모 언어 모델(LLM) 훈련 시 고품질 데이터의 제한된 가용성과 복잡한 추론 토큰 학습의 어려움이라는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Pre-training #Data Augmentation #Reasoning #Data Efficiency #Thinking Trajectories

2025년 9월 26일

[논문리뷰] GenExam: A Multidisciplinary Text-to-Image Exam

기존 텍스트-투-이미지(T2I) 벤치마크들이 일반적인 세계 지식이나 개념 설명에 치우쳐 엄격한 도면 시험 평가에 미흡하다는 문제점을 해결하고자 합니다.

#Review #Text-to-Image Generation #Multidisciplinary #Benchmark #Evaluation #AGI #Reasoning #Scoring System #Visual Question Answering

2025년 9월 18일

[논문리뷰] DCPO: Dynamic Clipping Policy Optimization

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 기존 방법론(예: GRPO)의 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Dynamic Clipping #Advantage Standardization #RLVR #Reasoning

2025년 9월 3일

[논문리뷰] R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

본 논문은 복잡한 추론 문제에서 뛰어난 성능을 보이는 기존 MLLM의 step-by-step 사고(thinking) 과정이 단순 문제에서는 불필요한 연산 오버헤드를 유발하는 비효율성을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Auto-Thinking #Reinforcement Learning (RL)#Bi-mode Annealing #Bi-mode Policy Optimization (BPO)#General-Purpose AI #Reasoning #Efficiency

2025년 9월 1일

[논문리뷰] AHELM: A Holistic Evaluation of Audio-Language Models

오디오-언어 모델(ALMs)의 표준화된 벤치마크 부족 문제를 해결하고, 기존 평가들이 제한된 기능에만 초점을 맞추며 공정성 및 안전성 같은 중요한 측면을 간과하는 한계를 극복하는 것을 목표로 합니다.

#Review #Audio-Language Models #Holistic Evaluation #Benchmarking #Multimodality #Fairness #Robustness #Reasoning #Bias Detection

2025년 9월 1일

[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

대규모 언어 모델(LLMs)을 강화 학습(RL)으로 정렬하는 과정에서 발생하는 높은 온-정책 롤아웃 비용 과 다양한 추론 경로 탐색의 한계 를 해결하고자 합니다. 본 논문은 시퀀스 생성을 트리 구조 검색 과정 으로 모델링하여 정책 최적화의 효율성과 추론 성능 간의 격차를 해소하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Policy Optimization #Large Language Models #Inference Efficiency #Tree Search #Segment-level Decoding #Advantage Estimation #Reasoning

2025년 8월 27일

[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

본 연구는 오픈소스 멀티모달 모델인 InternVL 시리즈를 다용성, 추론 능력, 그리고 추론 효율성 측면에서 발전시키는 것을 목표로 합니다. 특히, 최첨단 상업 모델인 GPT-5 와의 성능 격차를 줄이고, 실제 멀티모달 LLM(MLLM) 애플리케이션의 계산 병목 현상을 해결하고자 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Inference Efficiency #Vision-Language Models #Open-Source #Versatility #Reasoning

2025년 8월 26일

[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #On-Policy RL #Off-Policy Experts #Dynamic Weighting #LLM Alignment #Reasoning

2025년 8월 21일

[논문리뷰] MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence

본 논문은 AI 시스템의 청각 지능을 포괄적으로 평가하는 데 있어 기존 벤치마크의 한계를 극복하고, 홀리스틱 오디오 이해 능력 을 종합적으로 측정하기 위한 새롭고 도전적인 벤치마크 MMAU-Pro 를 제안합니다.

#Review #Audio Intelligence #Multimodal AI #Benchmark #Audio-Language Models #Holistic Evaluation #Reasoning #Long-Form Audio #Multicultural Music

2025년 8월 20일

[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

기존 웹 브라우징 벤치마크가 주로 텍스트 정보에만 초점을 맞춰 멀티모달 콘텐츠의 중요성을 간과하는 문제를 해결하고자 합니다.

#Review #Multimodal Browsing #AI Agents #Benchmark #Vision-Language Models #Reasoning #Tool Use #Deep Search

2025년 8월 20일

[논문리뷰] HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

본 논문은 인간 중심 시나리오에서 MLLM(Multimodal Large Language Models) 의 심층적인 이해 및 공감적, 상황 인지적 응답 능력을 평가하기 위한 세분화된 평가 프레임워크의 부족 문제 를 해결하고자 합니다.

#Review #Multimodal LLMs #Human-Centered AI #Empathy #Context-Awareness #MLLM Benchmark #Reinforcement Learning #Reasoning

2025년 8월 15일

[논문리뷰] AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

대규모 언어 모델(LLM)이 추론 태스크에서 겪는 catastrophic forgetting 및 모방(imitation) 과 탐색(exploration) 간의 최적화되지 않은 트레이드오프 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Fine-tuning #Reinforcement Learning #Meta-learning #Adaptive Control #Imitation Learning #Exploration #Reasoning

2025년 8월 14일

[논문리뷰] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

본 논문은 오픈소스 MoE(Mixture-of-Experts) 기반 대규모 언어 모델인 GLM-4.5 를 소개합니다. 핵심 목표는 에이전트, 추론, 코딩(ARC) 태스크 전반에서 강력한 성능을 달성하고, 사고 및 직접 응답 모드를 지원하는 하이브리드 추론 방식을 통해 계산 효율성을 극대화하는 것입니다.

#Review #Large Language Model #Mixture-of-Experts #Agentic AI #Reasoning #Code Generation #Reinforcement Learning #Foundation Model

2025년 8월 11일

[논문리뷰] R-Zero: Self-Evolving Reasoning LLM from Zero Data

본 연구는 기존 LLM의 자가 진화 방식이 방대한 인간 큐레이션 데이터 에 의존하는 한계를 극복하고자 합니다.

#Review #Self-Evolving LLM #Reinforcement Learning #Curriculum Learning #Reasoning #Large Language Models #Self-Play #Zero-Data Training

2025년 8월 8일

[논문리뷰] InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 확장 가능 하고 샘플 효율적인 후속 학습 프레임워크인 InfiAlign 을 제안합니다. 특히, 데이터 및 계산 비용이 많이 드는 기존 방법론의 한계를 극복하고, 적은 양의 고품질 데이터로도 LLM 정렬을 효과적으로 수행하는 것을 목표로 합니다.

#Review #LLM Alignment #Reasoning #Data Curation #Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#Sample Efficiency #Scalability #Multi-dimensional Filtering

2025년 8월 8일

[논문리뷰] Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

본 논문은 대규모 언어 모델(LLMs)이 복잡한 지시를 따를 때 흔히 발생하는 '게으른 추론' 문제로 인한 일관성 부족을 해결하고자 합니다.

#Review #LLMs #Instruction Following #Reasoning #Reinforcement Learning #Supervised Fine-tuning #Entropy Regularization #Self-Checking #Previewing

2025년 8월 7일

[논문리뷰] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 이 진정한 논리적 추론이 아닌, 훈련 데이터 분포에 강하게 의존하는 표면적인 패턴 매칭 일 가능성을 탐구합니다.

#Review #Chain-of-Thought #LLMs #OOD Generalization #Data Distribution Shift #Reasoning #Pattern Matching #DataAlchemy

2025년 8월 7일

[논문리뷰] 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

본 논문은 기존 3D Vision-Language Models (VLMs)이 복잡한 공간 관계 추론 및 일반화에서 겪는 한계를 해결하고자 합니다. 이는 고품질 공간 데이터의 부족과 고정된 시점 가정으로 인해 발생하며, 모델의 추론 능력과 다양한 3D 환경에서의 일반화 성능을 향상시키는 것을 목표로 합니다.

#Review #3D Vision-Language Models #Reasoning #Scene Understanding #Reinforcement Learning #Chain-of-Thought #Dynamic View Selection #Multi-task Learning

2025년 8월 4일

[논문리뷰] The Era of Agentic Organization: Learning to Organize with Language Models

본 논문은 AI가 개별 지능의 한계를 넘어 협력적이고 동시적으로 복잡한 문제를 해결하는 '에이전트 조직(agentic organization)' 시대를 목표로 합니다.

#Review #Agentic Organization #Asynchronous Thinking #Language Models #Reinforcement Learning #Multi-agent Systems #Reasoning #Task Decomposition #Orchestration

2025년 10월 31일

[논문리뷰] FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

RLVR(Reinforcement Learning with Verifiable Rewards)을 활용한 LLM(Large Language Model) 학습 시, '오류가 있지만 정답인 롤아웃'(flawed-positive rollouts)이 신뢰할 수 없는 추론 패턴을 강화하여 성능을 제한하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #Policy Optimization #Reward Modeling #Flawed Reasoning #Reliable AI #Error Detection

2025년 10월 30일

[논문리뷰] LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

본 연구는 대규모 언어 모델(LLM)의 추론 능력을 강화하는 검증 가능한 보상 강화 학습(RLVR) 의 한계, 즉 테스트 시점에서의 검증 신호 부족과 기존 자가 검증 방법론의 비효율성을 해결하고자 합니다.

#Review #Reinforcement Learning #LLM #Self-Verification #Last-Token #Reward Modeling #Efficiency #Reasoning #RLVR

2025년 10월 17일

[논문리뷰] Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

본 논문은 통합 멀티모달 모델의 생성(Generation) 및 이해(Understanding) 능력 간의 실제적인 상호작용 을 평가하는 기존 벤치마크의 한계를 해결하는 것을 목표로 합니다.

#Review #Multimodal AI #Unified Models #Benchmark #Generation #Understanding #Reasoning #Evaluation #Cross-modal Synergy

2025년 10월 16일

[논문리뷰] Generative Universal Verifier as Multimodal Meta-Reasoner

본 논문은 차세대 멀티모달 추론 및 통합 모델을 위한 생성형 범용 검증기(Generative Universal Verifier, GUV) 개념과 플러그인을 소개합니다.

#Review #Multimodal AI #Visual Verification #Generative Models #Self-Refinement #Vision-Language Models #Test-Time Scaling #Reasoning

2025년 10월 16일

[논문리뷰] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

본 논문은 현대 다중 모달 대규모 언어 모델(MLLMs) 이 물리적 도구를 얼마나 깊이 이해하는지 정량적으로 평가하는 것을 목표로 합니다. 특히, 임베디드 AI 에이전트가 실제 환경에서 도구를 효과적으로 사용하고, 심지어 새로운 도구를 만들어내는 데 필요한 물리적 도구 이해 능력의 현황과 한계를 파악하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Physical Tool Understanding #Benchmarking #Embodied AI #Visual Question Answering (VQA)#Tool Affordances #Reasoning

2025년 10월 13일

[논문리뷰] MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval

기존 멀티모달 검색 벤치마크의 한계(일반 도메인, 단순 의미 매칭, 단일 이미지/단일 모달 문서)를 극복하고, 전문가 수준의 다학제적 지식과 심층적인 추론 을 요구하는 현실적인 멀티모달 검색 벤치마크를 구축하는 것을 목표로 합니다.

#Review #Multimodal Retrieval #Benchmark #Reasoning #Multidisciplinary #Expert-Level #Image-Text Interleaving #Contradiction Retrieval

2025년 10월 13일

[논문리뷰] KORMo: Korean Open Reasoning Model for Everyone

본 논문은 한국어와 영어를 지원하는 최초의 완전 공개(Fully Open) 이중 언어 대규모 언어 모델(LLM) 인 KORMo 를 구축하는 것을 목표로 합니다.

#Review #Large Language Model #Korean #Bilingual #Synthetic Data #Fully Open Model #Tokenizer #Reasoning #Pretraining #Instruction Tuning

2025년 10월 13일

[논문리뷰] Dyna-Mind: Learning to Simulate from Experience for Better AI Agents

AI 에이전트가 복잡하고 장기적인 대화형 태스크에서 '대리 시행착오(vicarious trial and error)' 능력을 통해 현재의 한계를 극복하고, 환경을 mentally simulate하여 추론 및 의사결정 성능을 향상시키는 것을 목표로 합니다.

#Review #AI Agents #Reinforcement Learning #World Models #Simulation #Reasoning #Language Models #Planning #Interactive AI

2025년 10월 13일

[논문리뷰] First Try Matters: Revisiting the Role of Reflection in Reasoning Models

본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 '반영(reflection)'의 실제 기여도를 체계적으로 분석하는 것을 목표로 합니다. 특히, 모델이 이미 후보 답변을 생성한 후에도 계속되는 추론 단계가 오류 수정에 실질적으로 도움이 되는지, 아니면 초기 결론을 재확인하는 역할을 하는지 밝히고자 합니다.

#Review #Large Language Models (LLMs)#Reasoning #Chain-of-Thought (CoT)#Reflection #Early Stopping #Supervised Fine-tuning (SFT)#Token Efficiency #Mathematical Reasoning

2025년 10월 10일

[논문리뷰] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

기존 비디오 생성 모델들이 복잡한 다이내믹스와 인과적으로 일관된 결과를 생성하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 시각적 상태 전이와 시간 경과에 따른 결과의 논리적 일관성 부족을 개선하기 위해 대규모 멀티모달 모델의 추론 능력을 비디오 생성에 통합하고자 합니다.

#Review #Video Generation #Chain-of-Thought #Multimodal Models #Reasoning #Inference-Time Tuning #Sparse Supervision #Diffusion Models #Keyframe Generation

2025년 10월 7일

[논문리뷰] Reasoning with Sampling: Your Base Model is Smarter Than You Think

본 논문은 LLM의 RL-사후 훈련(RL-posttraining)이 진정으로 새로운 추론 능력을 부여하는지, 아니면 기본 모델의 기존 능력을 '선명하게' 하는 것인지에 대한 질문에 답하고자 합니다.

#Review #LLMs #MCMC #Sampling #Reasoning #Distribution Sharpening #Reinforcement Learning (RL)#Inference-time Optimization #Training-free

2025년 10월 27일

[논문리뷰] PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

과학 논문 내 텍스트, 그림, 표, 수식 등 다양한 모달리티 간의 불일치(inconsistencies) 를 LMM이 얼마나 신뢰성 있게 이해하고 추론하며 해결할 수 있는지를 평가하는 것을 목표로 합니다. 기존 벤치마크들이 합성 오류 나 단일 모달리티 에 집중하여 실세계 복잡성을 포착하지 못하는 한계를 극복하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Scientific Document Analysis #Multimodal Inconsistencies #Peer Review #Benchmark #Debiasing #JSON-based Representation #Reasoning

2025년 10월 22일

[논문리뷰] CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

본 연구는 추론 태스크에서 대규모 언어 모델( LLMs )의 훈련 효율성을 향상시키는 것을 목표로 합니다.

#Review #Curriculum Learning #LLMs #Reasoning #Gradient Optimization #Reinforcement Learning #Bayesian Inference #Sample Efficiency

2025년 10월 2일

[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

본 논문은 실시간 대화 제약 조건 하에서 음성 대화형 시스템의 추론 능력을 평가하고, 텍스트 모델과 비교하여 발생하는 심각한 성능 저하, 즉 Voice Reasoning Gap (VRG) 을 진단하는 것을 목표로 합니다.

#Review #Voice AI #LLM #Reasoning #Benchmark #Modality Gap #Latency #Speech Recognition #Generative AI #Real-time Systems #Conversational AI

2025년 10월 1일

[논문리뷰] More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models

이 논문은 Vision-Language Models (VLMs)의 추론이 논리적 추론을 강화하지만, 기본적인 시각적 질문에서 인식 기반(perceptual grounding)을 손상시켜 인식 실패를 초래하는 이중적인 특성을 탐구합니다.

#Review #Vision-Language Models #Multimodal Reasoning #Reasoning #Visual Forgetting #Perceptual Grounding #Reinforcement Learning #Policy Optimization #Visual Anchors

2025년 10월 1일