#Chain-of-Thought

157개의 포스트

[논문리뷰] Audio-Visual Flamingo: Open Audio-Visual Intelligence for Long and Complex Videos

본 논문은 오디오-비주얼 정보가 풍부한 장시간의 실세계 비디오를 인간처럼 이해하고 추론하는 범용 AI 모델의 부재를 해결합니다. 기존의 AV-LLM들은 주로 짧은 클립 이해에 국한되어 있으며, 특히 오디오와 비주얼 데이터를 결합하여 추론하는 능력이 부족합니다 .

#Review #AV-LLM #Audio-Visual Reasoning #Long-form Video #Chain-of-Thought #Multimodal Learning #Temporal Alignment

2026년 7월 19일

[논문리뷰] ABot-N1: Toward a General Visual Language Navigation Foundation Model

본 논문은 기존의 단일 통합 정책(Monolithic Policy)이 가진 navigation의 한계점과 확장성 문제를 해결하기 위해 ABot-N1을 제안합니다 .

#Review #Visual Language Navigation #Foundation Model #Slow-Fast Architecture #Chain-of-Thought #Pixel Goal #Embodied AI #Cross-Task Generalization

2026년 7월 13일

[논문리뷰] MentalThink: Shaping Thoughts in Mental SVG World

본 논문은 기존의 언어 중심 Multimodal CoT가 가진 시각적 접지(Visual Grounding)의 취약성과 할루시네이션(Hallucination) 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Spatial Reasoning #Scalable Vector Graphics #Chain-of-Thought #Reinforcement Learning #Mental Imagery

2026년 7월 7일

[논문리뷰] ReasoningLens: Hierarchical Visualization and Diagnostic Auditing for Large Reasoning Models

본 연구는 LRMs가 생성하는 지나치게 긴 Chain-of-Thought 추론 과정이 야기하는 '투명성 부담(Transparency burden)' 문제를 해결하고자 합니다.

#Review #Large Reasoning Models #Chain-of-Thought #Diagnostic Auditing #Hierarchical Visualization #Agentic Diagnosis #Systemic Profiling

2026년 6월 29일

[논문리뷰] The Hitchhiker's Guide to Agentic AI: From Foundations to Systems

이 가이드는 현대 AI 시스템의 전체 스택을 이해하고 구축하고자 하는 연구자와 실무자를 위해, LLM의 기초 아키텍처부터 autonomous agentic 시스템까지를 통합적으로 설명합니다.

#Review #LLM #Reinforcement Learning #Agentic AI #System Architecture #Retrieval-Augmented Generation #Chain-of-Thought #Multi-Agent Systems

2026년 6월 24일

[논문리뷰] IV-CoT: Implicit Visual Chain-of-Thought for Structure-Aware Text-to-Image Generation

본 논문은 현대의 통합형 MLLM 기반 이미지 생성 모델들이 복잡한 구조적 요구사항(객체 수, 공간적 관계, 속성 결합 등)을 따르는 데 어려움을 겪는 구조적 불투명성 문제를 해결하고자 합니다.

#Review #IV-CoT #Chain-of-Thought #Structure-Aware #Text-to-Image Generation #MLLM-DiT #Latent Reasoning

2026년 6월 24일

[논문리뷰] Qwen-AgentWorld: Language World Models for General Agents

본 연구는 대규모 언어 모델(LLM) 기반 에이전트가 효과적으로 작동하기 위해 필수적인 환경 시뮬레이션 능력, 즉 World Model의 부재를 해결하고자 합니다. 기존 연구는 에이전트의 정책(Policy) 결정에만 집중할 뿐, 환경의 동역학을 예측하는 World Model 구축에는 소홀했습니다.

#Review #Language World Model #Agentic Environment #Foundation Model #Reinforcement Learning #Chain-of-Thought #Agentic Agents #Simulation Fidelity

2026년 6월 23일

[논문리뷰] Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

본 논문은 기존의 Spatial VLM들이 가진 복합적인 공간 추론 능력의 한계를 극복하고자 합니다. 현재의 모델들은 단순한 기하학적 인식에는 강점을 보이나, 깊이 정보와 거리 비교, 장면 관계가 얽힌 복합적인 다단계 추론에는 여전히 취약합니다 .

#Review #Spatial Vision-Language Models #Reinforcement Learning #Dual-Path Reasoning #Chain-of-Thought #3D Grounding #Geometric Reasoning

2026년 6월 17일

[논문리뷰] Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

본 논문은 복잡한 추론을 위해 필수적인 Chain-of-Thought (CoT)가 초래하는 높은 Latency와 연산 비용 문제를 해결하기 위해 고안되었습니다.

#Review #Prompt-Level Distillation #Non-Parametric #Chain-of-Thought #System Prompt #Reasoning Transfer #Inference Efficiency

2026년 6월 15일

[논문리뷰] Implicit Reasoning for Large Language Model-based Generative Recommendation

본 논문은 LLM 기반의 Generative Recommendation(GR) 시스템에서 명시적 CoT 추론이 오히려 추천 성능 향상에 한계를 보인다는 문제를 다룹니다. 기존 연구들은 LLM의 월드 지식을 활용하고자 자연어 추론 과정을 도입했으나, 이는 계산 비용이 크고 실제 성능 기여도가 불분명합니다 .

#Review #Generative Recommendation #Large Language Models #Chain-of-Thought #Semantic IDs #Implicit Reasoning #Representation Alignment #PauseRec

2026년 6월 15일

[논문리뷰] ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

본 논문은 기존 의료용 MLLM 평가 체계가 최종 답변의 정확도만 판단할 뿐, 환각(Hallucination)이 발생하는 근본적인 원인을 규명하지 못하는 한계를 해결하고자 합니다.

#Review #Medical MLLM #Hallucination Diagnosis #Chain-of-Thought #Multimodal Reasoning #Stage-wise Evaluation #Stage-Replacement Intervention

2026년 6월 14일

[논문리뷰] An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models

본 논문은 Large Reasoning Models가 추론 결과 생성에는 탁월한 성능을 보임에도 불구하고, 논리적 오류를 평가하는 능력에서는 심각한 결함을 보이는 Production-Evaluation Gap 문제를 제기한다.

#Review #Large Reasoning Models #Production-Evaluation Gap #Answer Confirmation Bias #Reasoning Evaluation #Chain-of-Thought #Causal Patching

2026년 6월 14일

[논문리뷰] AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

본 논문은 실시간 스트리밍 환경에서 LLM이 적응형으로 추론하도록 최적화하는 AdaSR 프레임워크를 제안한다. 기존의 스트리밍 추론 연구들은 주로 감독 학습(Supervised Fine-tuning)에 의존하고 있어, 모델이 다양한 입력 상황에 맞춰 능동적으로 추론 여부를 결정하는 유연성이 부족하다.

#Review #Streaming Reasoning #Reinforcement Learning #Hierarchical Relative Policy Optimization #Adaptive Computation #Large Language Models #Chain-of-Thought

2026년 6월 14일

[논문리뷰] Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It

본 연구는 CoT Fine-tuning이 모델의 논리적 추론 능력을 향상시키는 반면, 예기치 않게 기존에 보유했던 Long-Range Recall 능력을 훼손하는 상충 관계(Trade-off)를 해결하고자 합니다.

#Review #Chain-of-Thought #Hybrid LLMs #Long-Range Recall #Attention Amnesia #Fine-tuning #Memory Decay #Inference Efficiency

2026년 6월 9일

[논문리뷰] Reasoning over Grammar: Can Synthetic Linguistic Reasoning Traces Enhance Low-Resource Machine Translation?

본 연구는 LLM을 활용한 극저자원 언어(extremely low-resource language)의 Machine Translation (MT) 성능을 향상시키는 것을 목표로 합니다.

#Review #Low-Resource Machine Translation #Large Language Models #Linguistic Reasoning Traces #In-Context Learning #Universal Dependencies #Chain-of-Thought

2026년 6월 8일

[논문리뷰] Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text

본 연구는 기존의 텍스트 기반 CoT(Chain-of-Thought)가 가지는 비효율성과 multimodal 태스크에서의 표현력 한계를 해결하고자 한다.

#Review #Optical Reasoning #Multimodal Large Language Models #Chain-of-Thought #Context Compression #Interleaved-modal Reasoning #Visual Reasoning

2026년 6월 8일

[논문리뷰] Compress-Distill: Reasoning Trace Compression for Efficient Knowledge Distillation

본 논문은 최신 Reasoning 모델들이 생성하는 긴 Chain-of-Thought 추론 과정이 Distillation 시 비용을 크게 증가시키고, Student 모델이 지나치게 장황한 답변을 생성하도록 유도한다는 점에 주목합니다.

#Review #Knowledge Distillation #Chain-of-Thought #Reasoning Trace #Model Compression #Supervised Fine-tuning #Inference Efficiency #Large Language Models

2026년 6월 7일

[논문리뷰] Latent Reasoning with Normalizing Flows

본 연구는 기존 텍스트 기반 Chain-of-Thought(CoT)의 높은 추론 비용과 정보 밀도 부족 문제를 해결하고자 합니다.

#Review #Chain-of-Thought #Normalizing Flows #Latent Reasoning #Large Language Models #Likelihood-based Modeling #Code Generation

2026년 6월 4일

[논문리뷰] iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning

본 논문은 MLLM의 fine-grained perception을 향상하기 위해 도입된 Visually Grounded CoT가 오히려 추론 단계에서 성능 저하를 일으킬 수 있다는 문제점을 지적합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Visually Grounded Reasoning #Chain-of-Thought #Dual-Stream Training #Test-Time Scaling

2026년 5월 31일

[논문리뷰] Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

본 논문은 LLM의 풍부한 추론 능력과 엄격한 출력 형식 보장 사이의 상충 관계(trade-off)를 해결하고자 합니다. 기존의 Constrained Decoding 방식은 생성 초기부터 문법을 강제하여 모델의 추론 유연성을 제한하고 성능을 떨어뜨리는 문제를 발생시킵니다.

#Review #Large Language Models #Constrained Decoding #Structured Generation #Chain-of-Thought #Parser

2026년 5월 28일

[논문리뷰] The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages

본 연구는 Chain-of-Thought(CoT) 모니터링이 다양한 언어 환경과 모델군에서 얼마나 신뢰할 수 있는가를 실증적으로 검증하기 위해 시작되었다.

#Review #Chain-of-Thought #CoT Monitorability #Deception #Linguistic Distribution Shift #Mechanistic Interpretability #LLM Safety

2026년 5월 27일

[논문리뷰] Revealing Algorithmic Deductive Circuits for Logical Reasoning

본 논문은 LLM이 복잡한 논리적 추론을 수행할 때 내부적으로 어떠한 메커니즘을 사용하는지에 대한 근본적인 의문을 해결하고자 합니다.

#Review #Large Language Models #Logical Reasoning #Chain-of-Thought #Causal Mediation Analysis #Circuit Interpretability #Attention Heads #Deductive Reasoning

2026년 5월 27일

[논문리뷰] EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

본 연구는 generative video foundation models의 빠른 발전으로 professional-grade cinematic synthesis에 대한 수요가 증가함에 따라, Reinforcement Learning (RL) 및 agentic workflows로의 전환에 필요한 신뢰할 수 있는 평가의 bottleneck 문제를 해결하고자 한다.

#Review #Video Generation #Benchmarking #Cinematic Quality #VLM #Chain-of-Thought #Human-Machine Alignment #Evaluation Framework #Reinforcement Learning

2026년 5월 26일

[논문리뷰] ETCHR: Editing To Clarify and Harness Reasoning

ETCHR은 LLM의 CoT 생성 과정에 존재하는 논리적 결함과 불필요한 노이즈가 최종 성능을 저하시키는 문제를 해결하기 위해 고안되었습니다. 기존 LLM은 긴 Reasoning Path를 생성할 때 고수준의 논리적 일관성을 유지하는 데 한계를 보이며, 이는 결과적으로 정답률 감소로 이어집니다.

#Review #Chain-of-Thought #Reasoning #Model Editing #Inference Optimization #LLM #Knowledge Distillation #Interpretability

2026년 5월 24일

[논문리뷰] LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

본 논문은 기존의 Explicit Text CoT 기반 MLLM이 고차원 오디오-비주얼 정보를 텍스트라는 좁은 병목으로 압축함에 따라, 다중 모달 간의 세밀한 시간적 정렬과 의미적 연결을 놓치는 문제를 해결하고자 한다.

#Review #Multimodal Large Language Models #Audio-Visual Reasoning #Latent Reasoning #Cross-modal Alignment #Chain-of-Thought #Instruction Tuning

2026년 5월 21일

[논문리뷰] Bernini: Latent Semantic Planning for Video Diffusion

본 논문은 현대의 MLLM과 영상 확산 모델(Diffusion Model)이 각각 고도의 추론 능력과 사실적 합성 능력을 갖추고 있음에도 불구하고, 이들을 효과적으로 통합하는 프레임워크가 부족하다는 점에 주목합니다.

#Review #Video Diffusion #Multimodal Large Language Models #Latent Semantic Planning #Diffusion Transformer #Video Editing #Chain-of-Thought

2026년 5월 21일

[논문리뷰] CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning

본 논문은 표준 CoT 패러다임이 가진 비효율적인 '생각 후 답변' 순서와, 이미 답변을 도출한 후에도 불필요하게 추론을 지속하는 Performative Reasoning 문제를 해결하고자 한다 .

#Review #Large Language Models #Chain-of-Thought #Continuous Embeddings #Contrastive Verification #On-Policy Thinking #Agentic Reasoning

2026년 5월 19일

[논문리뷰] Code-Guided Reasoning for Small Language Models: Evaluating Executable MCQA Scaffolds

본 연구는 SLMs의 제한된 추론 능력을 극복하기 위해 코드 실행 기반의 구조화된 추론 환경을 도입하는 것을 핵심 목표로 합니다. 기존의 Chain-of-Thought (CoT) 기법은 복잡한 다단계 추론 과정에서 Hallucination이나 논리적 비약이 발생하기 쉽다는 한계가 존재합니다.

#Review #Small Language Models #Chain-of-Thought #Executable Scaffolds #MCQA #Code-Guided Reasoning #Symbolic Execution

2026년 5월 19일

[논문리뷰] Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

본 논문은 현재 T2I(Text-to-Image) 모델이 의존하는 single-step generation 패러다임의 한계를 극복하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Reinforcement Learning #Diffusion Models #Test-time Scaling #Model Alignment #Efficient Inference

2026년 5월 14일

[논문리뷰] The Scaling Properties of Implicit Deductive Reasoning in Transformers

본 논문은 depth-bounded Transformer가 내재적(implicit)으로 수행하는 연역적 추론의 확장성(scaling) 한계를 규명합니다.

#Review #Transformers #Implicit Deductive Reasoning #Horn Clauses #Chain-of-Thought #Scaling Properties #Shortcut Learning #Algorithmic Alignment

2026년 5월 7일

[논문리뷰] LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

본 논문은 L1(수치 읽기), L2(패턴 인식), L3(의미론적 추론) 단계로 구성된 계층적 교육 과정을 통해 LLaTiSA를 학습시킨다. 제안 모델인 LLaTiSA는 시계열 시각화 그래프와 정밀한 인덱스-값 테이블을 동시에 입력받는 이중 뷰(dual-view) 프레임워크를 채택하여, 시각적 직관과 수치적 정확성을 동시에 확보한다 .

#Review #Time Series Reasoning #Large Language Models #Vision-Language Models #Chain-of-Thought #Curriculum Learning #Data Taxonomy

2026년 4월 23일

[논문리뷰] Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

저자들은 다양한 규모의 MRM 및 MLM 백본을 대상으로 CoT와 Non-CoT 프롬프트를 비교 평가하는 방법론을 수행하였습니다. 실험 결과, 17개 중 대다수의 모델에서 CoT 프롬프트를 사용했을 때 시각적 공간 추론 정확도가 평균적으로 하락하는 경향이 관찰되었습니다 .

#Review #Multimodal Reasoning Models #Chain-of-Thought #Visual Spatial Reasoning #Shortcut Learning #Hallucination #No-Image Ablation

2026년 4월 21일

[논문리뷰] Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

본 논문은 VRMs가 단순한 문제에도 불필요하게 긴 Chain-of-Thought(CoT)를 생성하여 발생하는 'Overthinking' 문제를 해결하는 것을 목적으로 합니다.

#Review #Vision-Language Models #Visual Reasoning #Overthinking #Reinforcement Learning #Chain-of-Thought #Efficiency

2026년 4월 19일

[SGLang] Reasoner Grammar: 추론 체인 제약 생성

SGLang의 Reasoner Grammar를 분석한다. Chain-of-Thought 추론 과정에서 구조화된 출력을 제약하는 방식, 추론 단계와 응답 단계의 분리를 코드와 함께 살펴본다.

#sglang #Reasoner Grammar #Chain-of-Thought #Reasoning Constraint

2026년 4월 13일

[논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

본 연구는 'SFT는 Memorization에 치중하고 RL은 Generalization에 강하다'는 기존의 지배적인 통념이 실험 환경에 따른 인위적인 결과일 수 있다는 가설에서 출발합니다.

#Review #Supervised Fine-Tuning #Chain-of-Thought #Generalization #Model Capability #Optimization Dynamics #Safety Degradation

2026년 4월 9일

[논문리뷰] HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

본 논문은 모달리티 적응형 컴퓨팅을 위한 MoT 아키텍처와 비전-언어 연결을 강화하는 Visual Latent Tokens를 핵심 방법론으로 제안합니다 . 시각적 인지 능력 향상을 위해 HY-ViT 2.0 인코더를 탑재하고, 고품질 embodied 데이터를 활용한 반복적인 사후 학습 패러다임을 설계했습니다.

#Review #Embodied Foundation Models #Mixture-of-Transformers #Visual Latent Tokens #On-policy Distillation #Chain-of-Thought #Real-world Agents

2026년 4월 9일

[논문리뷰] Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

본 논문은 RLVR 기반의 Multimodal Reasoning Models(MRM)이 높은 정답 정확도를 달성함에도 불구하고, 정작 그 과정인 CoT 추론의 신뢰성이 현저히 떨어지는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Constrained Policy Optimization #Chain-of-Thought #Visual Spatial Reasoning #Lagrangian Relaxation #Faithfulness

2026년 4월 9일

[논문리뷰] Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

본 논문은 통합된 Multimodal 모델인 BAGEL-7B를 기반으로, 텍스트 토큰과 비주얼 토큰을 Autoregressively 생성하는 Process-Driven 아키텍처를 구축하였다 . 제안 모델은 4단계 루프(Plan → Sketch → Inspect → Refine)를 통해 각 단계에서 생성된 중간 비주얼 상태를 스스로 평가하고 수정한다.

#Review #Multimodal Foundation Models #Process-Driven Generation #Interleaved Reasoning #Chain-of-Thought #Visual Grounding #Image Generation

2026년 4월 8일

[논문리뷰] The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

저자들은 Star Graph 환경에서의 경로 탐색 과제를 통해 모델의 Latent Planning 성능을 정밀하게 제어하며 평가하였다. 모델은 경로의 첫 번째 노드를 예측하도록 학습되며, 중간 단계에 대한 감독은 전혀 제공되지 않는다.

#Review #Large Language Models #Latent Planning #Strategy Discovery #Chain-of-Thought #Depth Ceiling #Path-finding #Implicit Reasoning

2026년 4월 8일

[논문리뷰] MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control

본 논문은 멀티모달 임베딩 학습에서 생성형 추론(Chain-of-Thought)을 통합할 때 발생하는 구조적 불일치와 비효율성 문제를 해결한다.

#Review #Multimodal Embedding #Large Language Models #Chain-of-Thought #Reinforcement Learning #Latent Variable #Causal Inference

2026년 4월 7일

[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning

저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 . 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다.

#Review #Vision-Language Models #Reinforcement Learning #Visual Reasoning #Multi-task Learning #Chain-of-Thought #Data Diversity #Reward Engineering

2026년 4월 6일

[논문리뷰] PLUME: Latent Reasoning Based Universal Multimodal Embedding

본 논문은 기존의 UME 파이프라인이 가진 효율성과 추론 능력 사이의 trade-off 문제를 해결하고자 합니다. 기존의 Explicit CoT UME 기법들은 중간 추론을 위해 수백 개의 토큰을 생성해야 하므로 높은 inference latency와 비용을 유발하며, 이는 실제 서비스 환경에 적합하지 않습니다.

#Review #Universal Multimodal Embedding #Latent Reasoning #Multimodal Large Language Models #Chain-of-Thought #Semantic-Anchor-Guided #Curriculum Learning

2026년 4월 6일

[논문리뷰] InCoder-32B-Thinking: Industrial Code World Model for Thinking

본 논문은 기존 LLM이 일반 코딩 작업에서는 뛰어난 성능을 보이나, 하드웨어 제약 조건과 복잡한 타이밍 시맨틱이 중요한 산업용 소프트웨어 개발 환경에서는 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Industrial Code Intelligence #Chain-of-Thought #World Model #Error-driven Synthesis #Hardware-aware Coding

2026년 4월 5일

[논문리뷰] Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

본 논문은 대규모 언어 모델의 일반적인 추론 성능을 향상시키면서, 불필요하게 긴 추론(Overthinking)을 방지하여 추론 비용과 지연 시간(Latency)을 최소화하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Chain-of-Thought #Efficiency #RLVR #Multi-Domain #Reasoning

2026년 4월 2일

[논문리뷰] ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

본 논문은 시각적 추론을 측정하기 위해 Physical, Knowledge, Symbolic 세 가지 영역을 포괄하는 ViGoR-Bench를 제안합니다 . 이 프레임워크는 Ground Truth(GT)를 기반으로 하여 모델의 생성 과정을 정밀하게 감시하는 Dual-Track Process-Outcome Evaluation 프로토콜을 구현합니다 .

#Review #Visual Generative Models #Visual Reasoning #Evaluation Benchmark #Chain-of-Thought #Process-Outcome Evaluation

2026년 4월 1일

[논문리뷰] Reasoning Shift: How Context Silently Shortens LLM Reasoning

본 연구는 모델이 동일한 문제를 Baseline, Subtask, Long input, Multi-turn 등 서로 다른 4가지 Context 조건에서 해결하도록 설계하여 추론 성능과 생성된 토큰 수를 측정했습니다. 실험 결과, 모델은 고립된 환경(Baseline) 대비 다른 조건들에서 최대 50%까지 짧은 추론 트레이스를 생성하는 현상을 보였습니다.

#Review #Large Language Models #Chain-of-Thought #Test-time Scaling #Context Management #Reasoning Shift #Self-verification #Overthinking

2026년 4월 1일

[논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

LLM의 CoT는 모델의 해석 가능성과 안전한 모니터링을 위한 강력한 도구로 활용되지만, 최근 CoT와 최종 출력 간의 인과적 불일치(Unfaithful CoT) 문제가 지적되고 있습니다.

#Review #Large Language Models #Chain-of-Thought #Monitorability #Benchmark #AI Safety #Stress-Test #Faithfulness

2026년 3월 31일

[논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

최근 대형 언어 모델의 추론 능력 향상을 위해 RLVR 기반의 강화학습이 널리 활용되고 있으나, 표준적인 GRPO 방식은 궤적 전체에 대해 동일한 가중치의 보상을 부여하는 거친 Credit Assignment 문제를 안고 있습니다.

#Review #Reinforcement Learning #Large Language Models #Future-KL #Policy Optimization #GRPO #Chain-of-Thought #Credit Assignment

2026년 3월 31일

[논문리뷰] HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Vision-language Models (VLMs)는 fine-grained하고 multi-step의 복잡한 시각-언어 추론 Task에서 여전히 어려움을 겪고 있다.

#Review #Vision-Language Models #Multi-Hop Reasoning #Data Synthesis #Reinforcement Learning with Verifiable Rewards #Chain-of-Thought #Generalizable Reasoning #Perception-level Hops #Instance-chain Hops

2026년 3월 22일

[논문리뷰] Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

본 논문은 복잡한 논리적 분해가 필요 없는 단순한 단일 홉 사실 질문에서 LLM의 추론이 어떻게 파라메트릭 지식 회상에 영향을 미치는지 밝히는 것을 목표로 합니다. 추론이 직관과 달리 모델의 지식 경계를 확장하는 메커니즘을 이해하고, 이를 통해 모델 정확도를 개선할 수 있는 실용적인 전략을 제시하고자 합니다.

#Review #LLMs #Reasoning #Parametric Knowledge #Factual Recall #Hallucination #Computational Buffer #Factual Priming #Chain-of-Thought

2026년 3월 10일

[논문리뷰] InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

통합 멀티모달 모델(UMM)이 강한 의미론적 이해와 강력한 생성 능력 사이에서 겪는 본질적인 상충 관계를 해결하고자 합니다. 이 논문은 InternVL-U 라는 경량의 4B 매개변수 UMM을 제안하여, 이해, 추론, 생성, 편집 능력을 하나의 통합 프레임워크 내에서 민주화하는 것을 목표로 합니다.

#Review #Unified Multimodal Models #Multimodal Large Language Model #Image Generation #Image Editing #Chain-of-Thought #Data Synthesis #Low-parameter Models

2026년 3월 10일

[논문리뷰] CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

본 논문은 기존의 CoT(Chain-of-Thought) 기반 텍스트-투-이미지(T2I) 생성 방식이 복잡한 공간 레이아웃, 구조화된 시각 요소, 조밀한 텍스트 콘텐츠에 필요한 정밀도가 부족하다는 문제를 해결하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Code Generation #Multimodal Large Language Models #Structured Image Synthesis #Draft-Guided Refinement #Visual Reasoning

2026년 3월 9일

[논문리뷰] Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

기존 Generative Reward Models (GRMs) 이 Chain-of-Thought (CoT) 의 길이를 단순히 늘리는 데 집중하며 다양한 추론 메커니즘의 효율성을 간과하는 문제를 해결하고자 합니다.

#Review #Generative Reward Models #Chain-of-Thought #Breadth-CoT #Depth-CoT #Reinforcement Learning #Reward Modeling #Mechanism Alignment

2026년 3월 3일

[논문리뷰] MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

본 논문은 실생활 시나리오에서 멀티모달 대규모 언어 모델(MLLM) 의 다양한 다중 이미지 추론 능력을 평가하기 위한 표준화된 벤치마크의 부재를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Multi-Image Analysis #Real-life Scenarios #Benchmark #MLLMs Evaluation #Chain-of-Thought #Reasoning Types

2026년 3월 2일

[논문리뷰] LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval

본 논문은 강력한 추론 능력을 가진 LLM 기반 dense retriever 가 복잡한 쿼리에 대해 높은 지연 시간 없이 추론 능력을 활용하지 못하는 문제를 해결하고자 합니다.

#Review #Dense Retrieval #LLMs #Reasoning #Knowledge Distillation #Latent Space #Self-Distillation #Chain-of-Thought

2026년 3월 2일

[논문리뷰] From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

본 논문은 이미지 편집 작업의 고유한 특성(목표 지향적, 소스 이미지 및 지침에 의한 제약)을 고려하여, 기존 텍스트-투-이미지(T2I) 중심의 Image Chain-of-Thought (Image-CoT) 방법론의 비효율성을 해결 하는 것을 목표로 합니다.

#Review #Image Editing #Test-Time Scaling #Chain-of-Thought #Diffusion Models #Adaptive Resource Allocation #Edit-Specific Verification #Opportunistic Stopping

2026년 3월 2일

[논문리뷰] CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

본 논문은 LLM의 추론 후속 훈련 과정에서 발생하는 콜드 스타트 문제, 제한된 도메인 커버리지, 주석 병목 현상 이라는 세 가지 핵심 데이터 관련 문제를 해결하는 것을 목표로 합니다. 특히, 인간 주석 없이 컴팩트하면서도 일반화 가능한 고품질 합성 추론 데이터셋 을 구축하여 이 문제를 해결하고자 합니다.

#Review #Synthetic Data #LLM Reasoning #Chain-of-Thought #Data Efficiency #Post-training #Generalization #Quality Control #Domain Coverage

2026년 3월 2일

[논문리뷰] Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

본 연구는 기존 참조 표현 이해(REC) 벤치마크( RefCOCO/+/g )가 짧은 표현, 적은 방해물, 중복 설명으로 인한 grounding shortcut 등으로 MLLM 의 진정한 시각적 추론 및 접지 능력을 제대로 평가하지 못한다는 문제점을 해결하고자 합니다.

#Review #Referring Expression Comprehension #MLLM #Visual Reasoning #Benchmark Dataset #Hard Distractors #Grounding Shortcuts #Chain-of-Thought #Negation

2026년 3월 1일

[논문리뷰] LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

본 논문은 낮은 컴퓨팅 예산 으로 장시간 비디오를 효율적으로 이해하는 과제를 해결하는 것을 목표로 합니다.

#Review #Long Video Understanding #MLLM Agent #Active Learning #Reinforcement Learning #Chain-of-Thought #Video Navigation #Computational Efficiency

2026년 3월 1일

[논문리뷰] The Art of Efficient Reasoning: Data, Reward, and Optimization

본 논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 높은 계산 오버헤드를 줄이기 위해 효율적인 추론 메커니즘 을 체계적으로 조사하는 것을 목표로 합니다.

#Review #Efficient Reasoning #Large Language Models #Reinforcement Learning #Reward Shaping #Chain-of-Thought #RL Optimization #Length Adaptation

2026년 2월 24일

[논문리뷰] OCR-Agent: Agentic OCR with Capability and Memory Reflection

Large Vision-Language Models(VLM)이 복잡한 시각 이해 태스크에서 인지적 편향을 독립적으로 수정하지 못하고, 반복적이고 비효율적인 수정 루프에 빠져 답변 품질을 안정적으로 개선하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #OCR #VLM #Self-Correction #Agentic AI #Capability Reflection #Memory Reflection #Iterative Refinement #Chain-of-Thought

2026년 2월 24일

[논문리뷰] UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

본 논문은 기존 통합 멀티모달 모델들이 단일 패스로만 작동하여 반복적인 개선 없이 출력을 생성하는 한계를 지적합니다. 복잡한 공간 구성, 다중 객체 상호작용, 진화하는 지침 등 다단계 추론과 자가 수정이 필요한 멀티모달 작업에서 이러한 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal AI #Chain-of-Thought #Test-time Scaling #Unified Models #Iterative Reasoning #Image Generation #Visual Reasoning #Self-Correction

2026년 2월 17일

[논문리뷰] On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

본 논문은 강화 학습(RL)으로 파인튜닝된 비전 언어 모델(VLM) 의 강건성(robustness) 및 사고 과정(Chain-of-Thought, CoT) 일관성 을 평가하는 것을 목표로 합니다.

#Review #VLM #RL Fine-tuning #Chain-of-Thought #Robustness #Faithfulness #Textual Perturbations #Visual Grounding #Uncertainty Calibration

2026년 2월 15일

[논문리뷰] GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

기존 VLLM 기반 지리 위치 추정(geolocation) 모델이 AI 생성 CoT 데이터의 불완전성, 비합리적인 학습 전략, 지역적 편향, 그리고 미세한 위치 주석 부족으로 인해 겪는 한계를 해결하고자 합니다.

#Review #Geolocation #Reinforcement Learning #Vision-Language Models #Chain-of-Thought #Geospatial AI #Dataset #Reward Function

2026년 2월 15일

[논문리뷰] ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces

본 논문은 대규모 언어 모델(LLM)의 추론 효율성을 향상시키는 것을 목표로 합니다. 특히, 기존의 명시적 추론 궤적(CoT) 및 잠재 공간 추론 방식의 한계를 극복하고, 추론 정확도를 높이면서 생성 길이를 줄이는 새로운 방법을 제안합니다.

#Review #Efficient Reasoning #Latent Space Reasoning #Discrete Space Reasoning #LLM Confidence #Routing Mechanism #Inference-Time Optimization #Chain-of-Thought

2026년 2월 12일

[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

본 논문은 LLM이 추론 과정에서 다양한 가설을 생성, 검증, 개선하는 'In-Context Exploration' 능력을 효과적으로 발휘하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #In-Context Learning #Reinforcement Learning #Test-Time Scaling #Exploration-Exploitation #State Coverage #Reward Shaping #Chain-of-Thought

2026년 2월 12일

[논문리뷰] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

대규모 추론 모델의 Chain-of-Thought(CoT) 방식이 직면한 2차 비용, 컨텍스트 길이 제한, 'lost-in-the-middle' 현상 으로 인한 추론 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Iterative Reasoning #Reinforcement Learning #Large Language Models #Context Management #Summarization #Chain-of-Thought #Efficiency #Mathematical Reasoning

2026년 2월 8일

[논문리뷰] No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs

본 연구는 Large Language Models (LLMs)의 Chain-of-Thought (CoT) 추론 과정에서 내재된 계획 능력(latent planning horizon) 을 규명하는 것을 목표로 합니다.

#Review #Chain-of-Thought #LLM Planning #Probing Methods #Uncertainty Estimation #Reasoning Dynamics #Model Interpretability

2026년 2월 3일

[논문리뷰] THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

본 논문은 강화 학습(RL) 기반의 추론 모델들이 복잡한 추론 태스크에서 성능을 극대화하는 과정에서 발생하는 '안전성 저하(safety tax)' 문제를 해결하고자 합니다.

#Review #Large Reasoning Models #Safety Alignment #Self-Distillation #Refusal Steering #Distributional Shift #Chain-of-Thought #Reinforcement Learning

2026년 2월 1일

[논문리뷰] ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

본 연구는 LLM의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 높은 계산 비용 과 추론 비효율성 을 해결하고자 합니다.

#Review #Latent Reasoning #Chain-of-Thought #Variational Autoencoder #Visual-Text Compression #LLMs #Multi-modal Reasoning #Computational Efficiency

2026년 2월 1일

[논문리뷰] MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

본 논문은 고품질 추론 데이터의 부족으로 인해 독점 시스템에 비해 뒤처지는 오픈소스 멀티모달 모델의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Data-centric AI #Chain-of-Thought #Large Language Models #Visual Question Answering #STEM Reasoning #Dataset #Fine-tuning

2026년 1월 29일

[논문리뷰] Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론이 길고 저대역폭의 이산 토큰 시퀀스를 생성하는 문제점을 해결하고, 인간처럼 여러 가능한 다음 단계에 대한 분포를 유지하며 추론하는 확률적이고 샘플링 기반의 연속적 추론 메커니즘 을 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Reasoning #Chain-of-Thought #Reinforcement Learning #Stochastic Reasoning #Continuous Representation #Token Efficiency

2026년 1월 19일

[논문리뷰] Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

본 논문은 복잡한 시각-언어-액션 (VLA) 태스크에서 기존 추론 VLA 모델들이 긴 chain-of-thought (CoT) 추론 과정으로 인해 겪는 높은 추론 지연 시간(inference latency) 문제를 해결하고자 합니다.

#Review #Vision-Language-Action #Embodied AI #Latent Planning #Chain-of-Thought #Distillation #Inference Efficiency #Robotic Manipulation #Preference Learning

2026년 1월 14일

[논문리뷰] TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

본 논문은 여행 계획 생성 시 발생하는 세 가지 주요 문제를 해결하는 것을 목표로 합니다: 방대한 관심 지점(POI) 후보군의 효율적인 가지치기, 단일 추론 경로로 인한 해법 공간 탐색 능력 제한, 그리고 하드 제약(예: 유효 방문 시간)과 소프트 제약(예: 경로 효율성)의 동시 최적화 어려움.

#Review #Travel Planning #LLM Agents #Reinforcement Learning #Multi-path Reasoning #Constraint Satisfaction #POI Optimization #Chain-of-Thought

2026년 1월 12일

[논문리뷰] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

본 논문은 In-Context Image Generation and Editing (ICGE) 태스크에서 사용자의 의도를 정확하게 이해하고 충실하게 실행하는 데 필요한 정확한 이해 능력과 생성 능력 간의 격차 를 해소하는 것을 목표로 합니다.

#Review #In-Context Image Generation #Image Editing #Multimodal Models #Chain-of-Thought #Structured Reasoning #Reinforcement Learning #Alignment #Diffusion Models

2026년 1월 8일

[논문리뷰] DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs

논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 노출 편향(exposure bias) 과 오류 누적 문제를 해결하는 것을 목표로 합니다.

#Review #Chain-of-Thought #Diffusion Models #Large Language Models #Reasoning #Error Correction #Preference Optimization #Denoising

2026년 1월 8일

[논문리뷰] ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

본 연구는 다중 모달 생성 모델을 활용한 지시 기반 이미지 편집에서 시각적 추론 능력의 한계 를 해결하고자 합니다. 특히, 기존 RL 방법론의 제한된 추론 탐색, 편향된 보상 통합, 불안정한 VLM 기반 지시 보상 문제를 극복하여, 추론 중심의 이미지 편집 품질을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reasoning #Chain-of-Thought #Multimodal Generative Models #Reward Modeling #VLM

2026년 1월 7일

[논문리뷰] EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning

이 논문은 기존 의료 QA 벤치마크가 놓쳤던 인구 수준 추론 및 증거 기반 역학적 추론을 체계적으로 평가하기 위해 대규모 언어 모델(LLM) 을 위한 새로운 진단 벤치마크인 EpiQAL 을 개발하는 것을 목표로 합니다.

#Review #Epidemiological Question Answering #Large Language Models #Benchmark #Multi-step Inference #Evidence Grounding #LLM Evaluation #Public Health AI #Chain-of-Thought

2026년 1월 7일

[논문리뷰] Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

대규모 언어 모델(LLM)의 복잡한 추론 과정 중 내부 메커니즘을 심층적으로 이해하고 조작하는 것을 목표로 합니다. 특히, 사람의 개입 없이 추론 행동을 표현하는 벡터 를 비지도 방식으로 발견 하여 기존의 제한적인 인간 정의 개념(예: 과도한 생각, 회고)을 넘어선 추론 행동을 식별하고 제어하고자 합니다.

#Review #LLM Reasoning #Mechanistic Interpretability #Sparse Autoencoders (SAEs)#Activation Steering #Unsupervised Learning #Reasoning Behaviors #Chain-of-Thought #Feature Disentanglement

2025년 12월 31일

[논문리뷰] Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding

기존의 날씨 모델들이 예측(예: nowcasting, inversion)과 이해(예: 진단적 추론, 질의응답) 태스크를 개별적으로 다루는 문제를 해결하고자 합니다.

#Review #Foundation Model #Multimodal AI #Weather Nowcasting #Radar Inversion #Weather Understanding #Chain-of-Thought #Shared Attention

2025년 12월 28일

[논문리뷰] N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

본 연구는 기존 멀티모달 모델이 2D 이미지에 의존하여 3D 공간 이해 능력이 부족하다는 한계를 해결하는 것을 목표로 합니다.

#Review #3D Grounding #Spatial Reasoning #Vision-Language Models #Depth Estimation #3D Object Detection #Chain-of-Thought #Data Generation #Multimodal AI

2025년 12월 18일

[논문리뷰] AdaTooler-V: Adaptive Tool-Use for Images and Videos

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)의 맹목적인 도구 사용(blind tool-use) 패턴으로 인한 추론 오버헤드 증가와 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Adaptive Tool-Use #Reinforcement Learning #Chain-of-Thought #Vision-Language Models #Visual Reasoning #AT-GRPO

2025년 12월 18일

[논문리뷰] Sliding Window Attention Adaptation

본 논문은 Transformer 기반 LLM의 Self-Attention 메커니즘 이 입력 길이의 제곱에 비례하여 발생하는 높은 연산 비용 문제를 해결하고자 합니다.

#Review #Large Language Models #Sliding Window Attention #Model Adaptation #Long Context #Inference Optimization #Fine-tuning #Chain-of-Thought #Sparse Attention

2025년 12월 14일

[논문리뷰] OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

본 논문은 대규모 언어 모델(LLMs)이 생성하는 길고 복잡한 CoT(Chain-of-Thought) 추론 과정의 신뢰할 수 없는 중간 단계를 효율적으로 검증하는 문제를 해결하고자 합니다.

#Review #LLM Verification #Chain-of-Thought #Process-based Verifier #Outcome-based Verifier #Active Learning #Reinforcement Learning #Mathematical Reasoning #AI Alignment

2025년 12월 11일

[논문리뷰] UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

자율 주행 시스템이 제한된 세계 지식 과 시각적 동적 모델링 부족 으로 인해 롱테일 시나리오에서 겪는 어려움을 해결하는 것이 목표입니다.

#Review #Autonomous Driving #End-to-End Learning #Vision-Language Models #World Model #Chain-of-Thought #Video Generation #Trajectory Planning #Multimodal Learning

2025년 12월 10일

[논문리뷰] EtCon: Edit-then-Consolidate for Reliable Knowledge Editing

본 논문은 대규모 언어 모델(LLM)의 지식 편집 방법론이 제어된 환경에서는 높은 성능을 보이나, 실제 자율 회귀 생성 및 평생 학습 시나리오에서는 치명적인 실패를 겪는 문제를 해결하고자 합니다.

#Review #Knowledge Editing #Large Language Models #Lifelong Learning #Reinforcement Learning #Trust Region Policy Optimization #Chain-of-Thought #Catastrophic Forgetting

2025년 12월 10일

[논문리뷰] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

본 논문은 대규모 언어 모델(LLM)의 순차적 추론 과정에서 발생하는 높은 지연 시간 문제를 해결하고자 합니다.

#Review #LLM #Parallel Reasoning #Inference Latency #Chain-of-Thought #Reinforcement Learning #Adaptive Threading #Mathematical Reasoning #Speedup

2025년 12월 9일

[논문리뷰] LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning

대규모 추론 모델(LLM)이 불필요하게 긴 사고 과정을 생성하여 컴퓨팅 자원을 낭비하고 때로는 정확도를 저해하는 '과잉 사고(overthinking)' 문제를 해결하고자 합니다.

#Review #Early Exit #Confidence Control #Reasoning Models #Conformal Prediction #LLM Optimization #Dynamic Exits #Hidden States #Chain-of-Thought

2025년 12월 9일

[논문리뷰] VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning

이 논문은 기존 Tool-integrated Visual Reasoning (TiVR) 패러다임이 부정확하거나 오류 있는 도구 출력에 취약하여 환각적인 추론으로 이어지는 문제를 해결하고자 합니다.

#Review #Tool-integrated Visual Reasoning #Referring Grounded Reasoning #Agentic Reinforcement Learning #Self-Correction #Large Vision-Language Models #Chain-of-Thought #Tool Refinement

2025년 12월 8일

[논문리뷰] Unified Video Editing with Temporal Reasoner

기존 비디오 편집 모델들이 겪는 정밀도(expert models)와 통합성/마스크-프리(in-context learning models) 간의 트레이드오프를 해결하는 것을 목표로 합니다.

#Review #Video Editing #Diffusion Models #Temporal Reasoning #Chain-of-Thought #In-Context Learning #ROPE #Multi-instance Editing

2025년 12월 8일

[논문리뷰] COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

본 연구는 기존 MLLM이 3D 공간 추론 및 객체 속성 이해에 어려움을 겪는 문제를 해결하고자 합니다. 단일 통합 MLLM이 공간 지각 능력을 내재적으로 향상 시키고, 적응형의 인터리브드 추론 을 통해 더욱 강력한 공간 지능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Spatial Reasoning #Perception Enhancement #Auxiliary Modalities #Adaptive Interleaved Reasoning #Reinforcement Learning #Chain-of-Thought

2025년 12월 7일

[논문리뷰] Rectifying LLM Thought from Lens of Optimization

본 논문은 Long Chain-of-Thought (CoT) LLM이 흔히 보이는 과도한 추론 및 불필요하게 긴 추론 사슬과 같은 비최적 추론 행동 을 해결하여, 성능 저하 및 높은 계산 비용 문제를 개선하는 것을 목표로 합니다. CoT를 최적화 과정으로 재개념화하고 이를 효과적으로 교정하고자 합니다.

#Review #LLM Reasoning #Chain-of-Thought #RLVR #Optimization Framework #Process-level Reward #Gradient Descent #Reasoning Efficiency #Suboptimal Reasoning

2025년 12월 1일

[논문리뷰] OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic

자율 주행 시스템에서 기존 SFT(Supervised Fine-tuning) 기반 VLM(Vision-Language Model) 의 제한된 추론 일반화 및 개방형 태스크 처리 능력을 개선하는 것이 목표입니다.

#Review #Autonomous Driving #Reinforcement Fine-tuning #LLM-as-Critic #Vision-Language Model #End-to-End Learning #Chain-of-Thought #Trajectory Planning

2025년 12월 1일

[논문리뷰] LongVT: Incentivizing 'Thinking with Long Videos' via Native Tool Calling

논문은 대규모 멀티모달 모델(LMMs)이 장시간 비디오(hours-long)에서 증거가 희박하고 시간적으로 분산된 정보를 처리할 때 발생하는 환각 현상과 부정확한 추론 문제를 해결하고자 합니다.

#Review #Long Video Understanding #Multimodal LLMs #Tool Calling #Reinforcement Learning #Chain-of-Thought #Temporal Grounding #Video Question Answering

2025년 12월 1일

[논문리뷰] Focused Chain-of-Thought: Efficient LLM Reasoning via Structured Input Information

본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 과도한 토큰 사용과 높은 추론 지연 시간 문제를 해결하고자 합니다. 훈련 없이(training-free) 입력 중심의 접근 방식을 통해 LLM의 추론 효율성을 높이고자 합니다.

#Review #LLM Reasoning #Chain-of-Thought #Prompt Engineering #Efficiency #Structured Input #Information Extraction #Cognitive Psychology #Token Reduction

2025년 11월 30일

[논문리뷰] Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

본 논문은 통합 멀티모달 모델(UMMs)에서 '이해' 능력이 '생성' 과정에 실제로 정보를 제공하고 안내하는지 여부를 조사합니다.

#Review #Unified Multimodal Models #Understanding-Generation Gap #Reasoning #Knowledge Transfer #Chain-of-Thought #Self-Training #Synthetic Data #Evaluation Framework

2025년 11월 25일

[논문리뷰] Step-Audio-R1 Technical Report

오디오 언어 모델이 추론 과정을 거치면 성능이 저하되는 기존의 문제, 즉 '텍스트 대리 추론' 현상을 해결하고, 오디오 도메인에서 진정한 추론 능력을 성공적으로 활성화하는 것을 목표로 합니다. 이는 오디오 인텔리전스에 대한 심층적 사고의 이점을 입증하고자 합니다.

#Review #Audio Reasoning #Multimodal LLMs #Modality-Grounded Reasoning Distillation (MGRD)#Chain-of-Thought #Reinforcement Learning #Audio Understanding #Self-Distillation

2025년 11월 20일

[논문리뷰] Music Flamingo: Scaling Music Understanding in Audio Language Models

이 논문은 기존 오디오-언어 모델(ALM)의 표면적인 인식 수준을 넘어 인간과 유사한 심층적인 음악 이해 및 추론 능력을 갖춘 모델을 개발하는 것을 목표로 합니다. 특히 고품질 음악 데이터 부족과 기존 모델의 제한적인 음악 이해 능력을 극복하고자 합니다.

#Review #Audio Language Models #Music Understanding #Chain-of-Thought #Reinforcement Learning #Data Curation #Multimodal AI #Music Information Retrieval

2025년 11월 13일

[논문리뷰] Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

본 논문은 시각적 수학을 넘어선 복합적인 추론 구조를 갖춘 대규모, 비전 중심 추론 데이터셋 의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Visual Reasoning #Compositional AI #Vision-Language Models #Data Synthesis #Chain-of-Thought #Reinforcement Learning #Multimodal Transfer #Grounded Reasoning

2025년 11월 10일

[논문리뷰] VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks

본 논문은 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 논리적 오류와 신뢰성 문제를 해결하는 것을 목표로 합니다. LLM이 최종 정답을 맞히더라도 추론 과정이 비논리적이거나 근거가 불충분할 수 있는 한계를 극복하고, 고위험 도메인에서의 LLM 신뢰도를 높이고자 합니다.

#Review #Neuro-symbolic AI #Chain-of-Thought #Large Language Models #Logical Consistency #Automated Verification #Fine-tuning #SMT Solvers #Self-Reflection

2025년 11월 9일

[논문리뷰] MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity

기존 멀티모달 벤치마크들이 텍스트 기반 추론을 과도하게 강조하거나 시각 중심의 인지적 행동을 체계적으로 포착하지 못하여 MLLM의 인지 능력을 불충분하게 평가하는 한계를 해결하는 것을 목표로 합니다. 시각 기반 추론에 중점을 둔 새로운 벤치마크 MME-CC 를 도입하여 MLLM의 인지 능력을 심층적으로 평가하고자 합니다.

#Review #Multimodal LLMs #Benchmark #Cognitive Capacity #Visual Reasoning #MLLM Evaluation #Error Analysis #Chain-of-Thought

2025년 11월 9일

[논문리뷰] Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement

본 논문은 대규모 언어 모델(LLMs)이 자연어 설명(NLEs)을 생성할 때 내부의 매개변수 지식(Parametric Knowledge, PK) 과 외부의 문맥 지식(Context Knowledge, CK) 을 어떻게 통합하고 상호작용하는지 다단계에 걸쳐 분석하는 것을 목표로 합니다.

#Review #LLMs #Knowledge Interaction #Parametric Knowledge #Contextual Knowledge #Subspace Disentanglement #NLE Generation #Hallucination Detection #Chain-of-Thought

2025년 11월 9일

[논문리뷰] MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models

본 연구는 Large Reasoning Models (LRMs)에서 발생하는 '추론-답변 불일치(reasoning-answer hit gap)' 문제를 해결하는 것을 목표로 합니다. 이는 모델이 추론 과정에서 올바른 사실을 식별함에도 불구하고 최종 답변에 이를 통합하지 못하여 사실적 정확도가 저하되는 현상을 말합니다.

#Review #Large Reasoning Models #Factuality Alignment #Meta-Reasoning #Kahneman-Tversky Optimization #Chain-of-Thought #Hallucination #Process-Level Alignment

2025년 11월 9일

[논문리뷰] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning

본 논문은 기존 임베딩 모델 기반 텍스트-비디오 검색 시스템의 한계, 즉 낮은 데이터 품질의 영향 및 랭킹 결과에 대한 설명 부족 문제를 해결하는 것을 목표로 합니다. 특히, 검색 모델의 동작과 텍스트-비디오 데이터 품질을 평가하기 위해 랭킹 결과를 해석할 수 있는 설명 가능한 검색 시스템 인 X-CoT를 제안합니다.

#Review #Text-to-Video Retrieval #LLM #Chain-of-Thought #Explainable AI #Multimodal Retrieval #Bradley-Terry Model #Video Annotation

2025년 9월 29일

[논문리뷰] Understanding the Thinking Process of Reasoning Models: A Perspective from Schoenfeld's Episode Theory

본 논문은 Large Reasoning Models (LRMs) 이 생성하는 Chain-of-Thought (CoT) 추론 과정의 내부 구조와 사고 패턴을 체계적으로 이해하는 데 필요한 프레임워크의 부재 문제를 해결합니다.

#Review #Large Reasoning Models #Cognitive Science #Schoenfeld's Episode Theory #Math Problem Solving #Chain-of-Thought #Behavioral Analysis #Dataset Annotation

2025년 9월 26일

[논문리뷰] SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

이 논문은 이질적인 과학적 표현과 자연어를 통합하여 다양한 과학 분야에 걸친 복잡한 과학적 추론을 수행하는 최초의 과학 추론 대규모 언어 모델(LLM) 인 SciReasoner 를 제안합니다.

#Review #Scientific Reasoning #Foundation Models #Multi-modal Learning #Cross-domain Generalization #Chain-of-Thought #Reinforcement Learning #Scientific Discovery #Molecular Design

2025년 9월 26일

[논문리뷰] MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

본 논문은 대규모 multimodal 추론 모델의 발전을 저해하는 두 가지 주요 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Reinforcement Learning #Variance-Aware Sampling #Gradient Vanishing #Data Curation #Chain-of-Thought #GRPO

2025년 9월 26일

[논문리뷰] SIM-CoT: Supervised Implicit Chain-of-Thought

Implicit Chain-of-Thought (CoT) 모델은 토큰 효율성에도 불구하고, 명시적 CoT 대비 지속적인 성능 격차와 핵심적인 '잠재 불안정성(latent instability)' 문제에 직면해 있습니다.

#Review #Implicit Reasoning #Chain-of-Thought #LLM #Latent Space #Supervised Learning #Model Stability #Interpretability

2025년 9월 25일

[논문리뷰] What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

본 논문은 대규모 추론 모델(LRMs)에서 효과적인 CoT(Chain-of-Thought) 추론의 특성을 규명하는 것을 목표로 합니다. 특히, 기존의 '길수록 좋다'는 CoT 길이 및 검토(review) 증가 경향에 의문을 제기하고, 추론 과정의 어휘적, 구조적 특성이 정확도에 미치는 영향을 체계적으로 분석하고자 합니다.

#Review #Chain-of-Thought #Reasoning Effectiveness #Large Reasoning Models #Failed-Step Fraction #Test-time Scaling #Reasoning Graph #Model Evaluation

2025년 9월 24일

[논문리뷰] TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

이 논문은 비디오 시간적 접지(temporal grounding) 작업에서 멀티모달 대규모 언어 모델(MLLMs) 의 효율성을 개선하는 것을 목표로 합니다. 기존 강화 학습( RL ) 방법론, 특히 GRPO 가 큰 시간 검색 공간에서 비효율적인 탐색과 불안정한 정책 업데이트를 겪는 문제를 해결하고자 합니다.

#Review #Video LLMs #Temporal Grounding #Reinforcement Learning #Off-policy Learning #Reward Shaping #Chain-of-Thought #Multimodal LLMs

2025년 9월 23일

[논문리뷰] AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

언어 모델(LLMs)이 오디오 입력 없이 텍스트만으로 청각적 상식과 추론 능력을 이해하는 데 부족함을 해결하고자 합니다. 이 격차를 해소하기 위해 청각 지식을 평가하는 AuditoryBench++ 벤치마크를 제시하고, LLM이 청각 정보를 '상상'하여 추론하는 AIR-CoT 방법론을 개발하는 것을 목표로 합니다.

#Review #Auditory Knowledge #Large Language Models #Multimodal Reasoning #Benchmark #Chain-of-Thought #Auditory Imagination #Text-only Reasoning

2025년 9월 23일

[논문리뷰] EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving

논문은 LLM 기반의 Automated Theorem Proving(ATP) 모델들이 Chain-of-Thought (CoT) 추론 및 다중 샘플링 패스 와 같은 test-time scaling 전략을 사용하며 발생하는 높은 계산 비용과 자원 비효율성을 해결하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #LLM #Test-Time Scaling #Chain-of-Thought #Reinforcement Learning #Efficiency Optimization #Token Cost #Sampling Cost #Dynamic CoT Switching

2025년 9월 17일

[논문리뷰] Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated

본 논문은 대규모 언어 모델(LLM)의 단계별 추론(Chain-of-Thought, CoT) 능력 이 새로운 유형의 데이터 포이즈닝 공격 기회를 제공함과 동시에, 이러한 공격을 최종 답변으로 유도하는 것을 복잡하게 만드는 예상치 못한 견고성을 생성한다는 점을 탐구합니다.

#Review #LLM Security #Data Poisoning #Chain-of-Thought #Reasoning Models #Backdoor Attacks #CoT Unfaithfulness #Emergent Robustness

2025년 9월 12일

[논문리뷰] Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

본 논문은 지식 집약적 태스크에서 Test-Time Scaling 기법이 모델의 정확도와 환각(hallucination) 감소에 효과적인지 종합적으로 평가하는 것을 목표로 합니다.

#Review #Test-Time Scaling #Reasoning Models #Knowledge-Intensive Tasks #Hallucinations #Factual Accuracy #Chain-of-Thought #Large Language Models

2025년 9월 9일

[논문리뷰] SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction

본 논문은 자연어 질의를 SQL 쿼리로 변환하는 Text-to-SQL (NL2SQL) 시스템의 견고성과 신뢰성을 향상시키는 것을 목표로 합니다. 특히, 기존 시스템들이 실행 기반 피드백에만 의존하여 논리적으로 부정확하지만 문법적으로 유효한 SQL 쿼리 오류를 수정하지 못하는 한계를 극복하고자 합니다.

#Review #Text-to-SQL #Multi-agent Systems #Chain-of-Thought #Error Correction #Large Language Models #Query Planning #Database Interaction

2025년 9월 3일

[논문리뷰] Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic

본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 능력을 습득하기 위해 필요한 값비싼 강화 학습(RL) 기반 최적화 과정을 대체하는 방법을 모색합니다.

#Review #Reasoning Vectors #Task Arithmetic #Chain-of-Thought #LLMs #Reinforcement Learning #Model Merging #Parameter Transfer

2025년 9월 3일

[논문리뷰] Kwai Keye-VL 1.5 Technical Report

본 논문은 동적이고 정보 밀도가 높은 비디오 콘텐츠 이해에서 발생하는 공간 해상도와 시간 범위 간의 트레이드오프 문제를 해결하고, 기존 모델들이 비디오 이해에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Video Understanding #Slow-Fast Encoding #Long Context #Chain-of-Thought #Reinforcement Learning #Human Alignment #Native-Resolution Vision Encoder

2025년 9월 3일

[논문리뷰] StepWiser: Stepwise Generative Judges for Wiser Reasoning

본 논문은 대규모 언어 모델(LLM)이 복잡한 문제 해결을 위해 사용하는 다단계 추론(Chain-of-Thought) 전략에서 각 중간 단계의 논리적 유효성을 감독하는 과제를 해결하는 것을 목표로 합니다.

#Review #LLM Reasoning #Process Reward Models #Reinforcement Learning #Generative Judges #Stepwise Feedback #Chain-of-Thought #Meta-Reasoning

2025년 8월 28일

[논문리뷰] Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

본 논문은 LLM의 과학 문제 해결 능력에 있어 깊은 도메인 지식 과 복잡한 추론 능력 의 필요성을 강조하며, 이를 종합적으로 평가할 수 있는 통일된 벤치마크의 부재와 지식 및 추론의 역할을 체계적으로 분리하여 연구하는 방법론의 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Scientific Reasoning #Knowledge Retrieval #Reasoning Probing #Benchmarks #Chain-of-Thought #Fine-tuning

2025년 8월 27일

[논문리뷰] Explain Before You Answer: A Survey on Compositional Visual Reasoning

본 설문조사는 복잡한 시각적 장면을 분해하고, 중간 개념을 이해하며, 다단계 논리적 추론을 수행하는 인간과 같은 능력을 기계에 부여하는 것을 목표로 하는 Compositional Visual Reasoning (CVR) 분야의 진화를 체계적으로 분석합니다.

#Review #Compositional Visual Reasoning #Multimodal AI #Vision-Language Models #Large Language Models #Chain-of-Thought #Tool Learning #Agentic AI #Survey

2025년 8월 26일

[논문리뷰] Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling

본 연구는 대규모 언어 모델(LLM)의 다단계 추론 능력 을 향상시키는 것을 목표로 합니다.

#Review #Reasoning Depth #Cellular Automata #Transformer Architectures #Recurrence #Adaptive Computation Time #Chain-of-Thought #Reinforcement Learning #Generalization

2025년 8월 26일

[논문리뷰] Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

본 논문은 Large Language Models (LLMs) 의 분자 발견 분야 적용 시 나타나는 설명 가능성 및 추론 성능 한계를 해결하는 것을 목표로 합니다.

#Review #Molecule Discovery #Chain-of-Thought #Large Language Models #Reinforcement Learning #Supervised Fine-tuning #Molecular Generation #Explainable AI

2025년 8월 14일

[논문리뷰] Train Long, Think Short: Curriculum Learning for Efficient Reasoning

대규모 언어 모델(LLMs)의 추론 능력 향상 과정에서 발생하는 비효율성, 즉 고정된 토큰 예산의 한계와 과도하게 긴 추론 과정의 문제를 해결하고자 합니다.

#Review #Curriculum Learning #Reinforcement Learning #Large Language Models #Reasoning Efficiency #Token Budget Control #Group Relative Policy Optimization #Chain-of-Thought

2025년 8월 13일

[논문리뷰] Aryabhata: An exam-focused language model for JEE Math

본 논문은 인도 입학 시험(JEE) 수학 영역에 최적화된 7B 파라미터 의 경량 언어 모델인 Aryabhata 1.0 을 제안합니다. 기존 대규모 언어 모델(LLM)이 교육적 활용에 부적합했던 문제를 해결하고, 학생 이해를 돕는 정확하고 투명하며 효율적인 단계별 추론 능력을 제공하는 것을 목표로 합니다.

#Review #Language Model #Math Reasoning #JEE #Supervised Fine-Tuning #Reinforcement Learning #Model Merging #Chain-of-Thought #Curriculum Learning

2025년 8월 13일

[논문리뷰] Compressing Chain-of-Thought in LLMs via Step Entropy

Large Language Models(LLMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도한 상세함과 중복성으로 인한 높은 추론 비용 및 비효율성을 해결하는 것이 주요 목표입니다.

#Review #LLM #Chain-of-Thought #CoT Compression #Step Entropy #Reinforcement Learning #SFT #GRPO

2025년 8월 12일

[논문리뷰] Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models

본 설문 연구는 DeepSeek R1 과 같은 R1-style Large Reasoning Models (LRMs) 에서 흔히 발생하는 '과잉 사고(overthinking)' 문제를 해결하고, 효율적인 추론 방법을 체계적으로 분류 및 분석하는 것을 목표로 합니다.

#Review #Large Reasoning Models #Efficient Reasoning #Chain-of-Thought #Model Optimization #Model Collaboration #Overthinking Problem #LLM Efficiency

2025년 8월 8일

[논문리뷰] Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks

본 논문은 5G 모바일 네트워크에서 해석 가능성, 도메인 전문성, 인과적 추론이 필요한 루트 원인 분석(RCA) 의 어려운 문제를 해결하고자 합니다. 특히, 대규모 언어 모델(LLMs) 을 활용하여 성능 저하의 가장 가능성 있는 근본 원인을 식별하고, 구조화된 다단계 진단 설명을 생성하는 경량 프레임워크를 제안합니다.

#Review #Root Cause Analysis #Large Language Models #5G Wireless Networks #Supervised Fine-Tuning #Reinforcement Learning #Chain-of-Thought #TeleLogs Dataset

2025년 8월 7일

[논문리뷰] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 이 진정한 논리적 추론이 아닌, 훈련 데이터 분포에 강하게 의존하는 표면적인 패턴 매칭 일 가능성을 탐구합니다.

#Review #Chain-of-Thought #LLMs #OOD Generalization #Data Distribution Shift #Reasoning #Pattern Matching #DataAlchemy

2025년 8월 7일

[논문리뷰] HPSv3: Towards Wide-Spectrum Human Preference Score

본 논문은 기존 텍스트-이미지 생성 모델 평가를 위한 인간 중심 지표들이 제한적인 데이터 커버리지 , 불완전한 특징 추출 , 비효율적인 손실 함수 로 인해 인간의 선호도와 충분히 정렬되지 못하는 문제를 해결하는 것을 목표로 합니다. 이는 고급 생성 모델의 평가와 실제 인간 인식과의 일치성을 저해합니다.

#Review #Human Preference Score #Text-to-Image Generation #Image Evaluation #Vision-Language Models (VLMs)#Uncertainty-Aware Ranking Loss #Dataset #Iterative Refinement #Chain-of-Thought

2025년 8월 7일

[논문리뷰] CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction

기존 AI/ML 독성 예측 모델의 한계(데이터 의존성, 해석 불가능성)와 LLM 기반 접근법의 문제점(SMILES 이해 부족, 생물학적 맥락 부재, 추론 비활용)을 극복하는 것을 목표로 합니다.

#Review #Toxicity Prediction #Large Language Model #Chain-of-Thought #Drug Development #Cheminformatics #Interpretable AI #IUPAC Nomenclature

2025년 8월 7일

[논문리뷰] 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

본 논문은 기존 3D Vision-Language Models (VLMs)이 복잡한 공간 관계 추론 및 일반화에서 겪는 한계를 해결하고자 합니다. 이는 고품질 공간 데이터의 부족과 고정된 시점 가정으로 인해 발생하며, 모델의 추론 능력과 다양한 3D 환경에서의 일반화 성능을 향상시키는 것을 목표로 합니다.

#Review #3D Vision-Language Models #Reasoning #Scene Understanding #Reinforcement Learning #Chain-of-Thought #Dynamic View Selection #Multi-task Learning

2025년 8월 4일

[논문리뷰] Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving

본 논문은 대규모 언어 모델(LLM)이 자연어 기반 정리 증명에서 명확한 감독 신호 부족으로 겪는 어려움을 해결하고자 합니다.

#Review #Automated Theorem Proving #Large Language Models #Formal Verification #Reinforcement Learning #Lean #Geometry Reasoning #Chain-of-Thought #Lemma-Style Proving

2025년 8월 2일

[논문리뷰] Video-Thinker: Sparking 'Thinking with Videos' via Reinforcement Learning

본 논문은 기존 이미지 추론에서 성공적으로 활용된 'Thinking with Images' 패러다임을 비디오 추론 태스크로 확장하는 것을 목표로 합니다.

#Review #Video Reasoning #Multimodal Large Language Models #Reinforcement Learning #Chain-of-Thought #Video Understanding #Temporal Grounding #Video Captioning #Autonomous Tool Use

2025년 10월 30일

[논문리뷰] PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments

본 연구는 기존 MLLM이 정적이고 완전히 관찰 가능한 환경에 국한되어 실제 물리적 환경에서의 정보 불완전성 문제에 취약하다는 한계를 지적합니다.

#Review #Active Visual Reasoning #MLLM #Physical Environments #Partially Observable #Markov Decision Process #Chain-of-Thought #Embodied AI #CLEVR-AVR

2025년 10월 27일

[논문리뷰] Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

기존 비디오 추론 모델들이 텍스트 기반 추론만을 제공하며 핵심 증거의 시점과 위치를 명시하지 못하는 문제를 해결하고자 합니다.

#Review #Video Reasoning #Spatio-Temporal Grounding #Large Multimodal Models #Reinforcement Learning #Chain-of-Thought #Visual Evidence #Dataset Curation

2025년 10월 24일

[논문리뷰] LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts

대규모 언어 모델(LLMs)이 긴 컨텍스트에 대한 고급 추론 능력을 갖추도록 하는 것이 목표입니다. 기존 RL 방법론들이 주로 짧은 컨텍스트 추론에 초점을 맞추고 있으며, 특히 높은 난이도의 긴 컨텍스트 RL 데이터가 부족하다는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Long Context Reasoning #Large Language Models #Multi-hop QA #Data Synthesis #Retrieval-Augmented Generation #Chain-of-Thought

2025년 10월 23일

[논문리뷰] GigaBrain-0: A World Model-Powered Vision-Language-Action Model

본 논문은 일반 로봇용 VLA(Vision-Language-Action) 모델이 직면한 대규모 실제 로봇 데이터 수집의 비효율성 및 제한된 다양성 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Model #World Model #Data Augmentation #Robot Generalization #Embodied AI #RGBD #Chain-of-Thought

2025년 10월 23일

[논문리뷰] Chem-R: Learning to Reason as a Chemist

현재 대규모 언어 모델(LLM)이 화학 분야에서 핵심 지식 부족, 신뢰할 수 없는 추론 궤적, 다양한 화학 태스크에서의 저조한 성능 등의 문제를 겪고 있습니다.

#Review #Chemical Reasoning #Large Language Models #Chem-R #Structured Reasoning #Multi-task Optimization #Chain-of-Thought #Chemical Discovery

2025년 10월 22일

[논문리뷰] Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense

본 논문은 대규모 추론 모델(LRMs)에서 '추론 방해(Reasoning Distraction)' 라는 새로운 취약점을 식별하고 체계적으로 분석하는 것을 목표로 합니다.

#Review #Large Reasoning Models (LRMs)#Prompt Injection #Adversarial Attack #Reasoning Distraction #Chain-of-Thought #Robustness #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)

2025년 10월 21일

[논문리뷰] DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

본 논문은 추론 언어 모델(LLM)이 불필요하게 긴 출력을 생성하는 문제를 해결하고, 토큰당 인텔리전스(정확도 대비 응답 길이)를 극대화하는 것을 목표로 합니다. 특히, 길이 패널티로 인한 정확도 저하가 패널티 설계 자체보다는 RL 최적화 기법 의 미흡함에서 비롯됨을 재조명하여 이를 개선하고자 합니다.

#Review #Reinforcement Learning #Length Penalty #Reasoning Efficiency #Large Language Models #RL Optimization #Accuracy-Efficiency Trade-off #Chain-of-Thought

2025년 10월 20일

[논문리뷰] VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

본 논문은 시각적 생성 모델의 후속 훈련을 위한 멀티모달 보상 모델(RMs)의 두 가지 주요 한계를 해결하는 것을 목표로 합니다.

#Review #Video Reward Models #Multimodal Reasoning #Thinking-with-Image #Visual Reasoning #Reinforcement Learning #Chain-of-Thought #Context Management

2025년 10월 17일

[논문리뷰] Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts

본 연구는 대규모 언어 모델(LLMs)이 버전별 캐릭터 , 특히 다양한 코믹 및 영화 세계관에 걸쳐 슈퍼히어로 역할을 얼마나 충실하고 일관성 있게 수행하는지 평가하는 것을 목표로 합니다. LLMs가 캐릭터의 고유한 지식, 가치관, 도덕적 코드를 유지하면서 다중 우주적 맥락에서 일관성을 보이는지 탐구하고자 합니다.

#Review #Role-playing LLMs #Multiversal Consistency #Character Benchmarking #Moral Dilemmas #Canon Events #Reasoning-Acting Alignment #Chain-of-Thought #Superheroes

2025년 10월 17일

[논문리뷰] Revisiting Model Interpolation for Efficient Reasoning

이 논문은 대규모 언어 모델(LLM)의 복잡한 연쇄적 사고(Chain-of-Thought, CoT) 추론에서 발생하는 과도한 사고(over-thinking) 및 높은 지연 시간 문제를 해결하기 위한 효율적인 추론 방법을 모색합니다.

#Review #Model Interpolation #Efficient Reasoning #Large Language Models #Chain-of-Thought #Model Merging #Performance Dynamics #Ablation Study

2025년 10월 16일

[논문리뷰] EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

본 논문은 추론 언어 모델(LLM)에서 여러 추론 경로를 탐색할 때 발생하는 불필요한 계산 오버헤드 를 줄이고자 합니다.

#Review #LLM #Inference-Time Scaling #Entropy-Aware Generation #Adaptive Budget Allocation #Reasoning Benchmarks #Computational Efficiency #Chain-of-Thought

2025년 10월 16일

[논문리뷰] Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

본 논문은 데이터 품질 격차로 인해 독점 모델에 뒤처지는 Fully Open MLLM 의 한계를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Data Curation #Supervised Fine-tuning #Chain-of-Thought #Open-source AI #Data Quality #MLLM Training

2025년 10월 16일

[논문리뷰] HoneyBee: Data Recipes for Vision-Language Reasoners

본 연구는 고성능 시각-언어(VL) 추론 훈련 데이터셋 구축의 원리를 규명하고, 다양한 데이터 큐레이션 접근 방식이 VL 추론 능력에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.

#Review #Vision-Language Models #Data Curation #Chain-of-Thought #VL Reasoning #Dataset Scaling #Supervised Finetuning #HONEYBEE #Test-Time Scaling

2025년 10월 15일

[논문리뷰] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

이 논문은 기존 벤치마크가 대규모 추론 모델(LRMs)의 복잡하고 상호 의존적인 장기 추론 능력을 충분히 평가하지 못하는 문제를 해결하고자 합니다. 특히, LRMs가 다단계 추론 시나리오에서 얼마나 깊고 넓게 추론할 수 있는지 그 한계를 평가하고 향상시키는 것을 목표로 합니다.

#Review #Long-Horizon Reasoning #Query Composition #Large Reasoning Models #Reinforcement Learning #Benchmark Evaluation #Thinking Budget #Performance Degradation #Chain-of-Thought

2025년 10월 13일

[논문리뷰] ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping

멀티모달 대규모 추론 모델(MLRMs)이 쉬운 문제에 대해 과도하게 추론하여 비효율적인 반면, 어려운 문제에는 불충분한 탐색으로 해답을 놓치는 불균형을 해결하는 것이 목표입니다. 문제 난이도에 따라 탐색 노력을 동적으로 할당하는 적응형 추론 프레임워크 ARES 를 제시하여 MLRM의 효율성과 성능을 개선하고자 합니다.

#Review #Multimodal Reasoning #Adaptive Learning #Reinforcement Learning #Entropy Shaping #Difficulty-Aware #Chain-of-Thought #Token-Level Analysis

2025년 10월 13일

[논문리뷰] Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models

본 논문은 Large Language Models (LLMs)의 강력한 추론 능력이 검색(retrieval) 작업에서 충분히 활용되지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Sentence Embedding #Retrieval-Augmented Generation #Chain-of-Thought #Information Retrieval #Supervised Fine-tuning

2025년 10월 10일

[논문리뷰] DeepPrune: Parallel Scaling without Inter-trace Redundancy

논문은 LLM의 병렬 추론(parallel reasoning)에서 발생하는 심각한 inter-trace redundancy 문제 를 해결하고, 높은 성능을 유지하면서도 계산 효율성을 대폭 향상 시키는 것을 목표로 합니다.

#Review #Parallel Scaling #Chain-of-Thought #LLM Reasoning #Dynamic Pruning #Inter-trace Redundancy #Judge Model #Resource Efficiency #Answer Diversity

2025년 10월 10일

[논문리뷰] The Markovian Thinker

본 논문은 추론 LLM 훈련 시 발생하는 무한한 상태 크기 와 추론 길이 증가에 따른 2차 계산 복잡도 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Chain-of-Thought #Markovian Thinking #Context Management #Computational Efficiency #Long-Context LLMs #Transformer Optimization

2025년 10월 9일

[논문리뷰] SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

현재 대규모 언어 모델(LLMs) 및 음성 언어 모델(SLMs)이 사용자의 발화가 끝난 후에야 추론 및 행동을 시작하여 발생하는 높은 응답 지연 시간 문제를 해결하는 것이 목표입니다.

#Review #Spoken Language Models #Real-time Interaction #Thinking While Listening #Chain-of-Thought #Interruption #Tool Calling #Streaming ASR

2025년 10월 9일

[논문리뷰] Revisiting the Uniform Information Density Hypothesis in LLM Reasoning Traces

본 논문은 대규모 언어 모델(LLM)의 CoT(Chain-of-Thought) 추론 과정에서 효과적인 추론이 단순히 피상적인 일관성을 넘어섰는지 판단하는 방법을 모색합니다.

#Review #LLM Reasoning #Chain-of-Thought #Uniform Information Density #Information Theory #Reasoning Trace Analysis #Entropy #Mathematical Reasoning #Model Evaluation

2025년 10월 9일

[논문리뷰] MixReasoning: Switching Modes to Think

본 논문은 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 비효율성과 과도한 중복성 을 해결하는 것을 목표로 합니다.

#Review #LLM Reasoning #Chain-of-Thought #Efficiency #LoRA #Adaptive Reasoning #Token Uncertainty #Dynamic Switching #Reasoning Compression

2025년 10월 8일

[논문리뷰] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

기존 비디오 생성 모델들이 복잡한 다이내믹스와 인과적으로 일관된 결과를 생성하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 시각적 상태 전이와 시간 경과에 따른 결과의 논리적 일관성 부족을 개선하기 위해 대규모 멀티모달 모델의 추론 능력을 비디오 생성에 통합하고자 합니다.

#Review #Video Generation #Chain-of-Thought #Multimodal Models #Reasoning #Inference-Time Tuning #Sparse Supervision #Diffusion Models #Keyframe Generation

2025년 10월 7일

[논문리뷰] Self-Reflective Generation at Test Time

본 논문은 대규모 언어 모델(LLM)의 자동회귀(autoregressive) 생성 과정에서 발생하는 초기 토큰 오류가 전체 추론 과정을 망가뜨리는 취약점을 해결하고자 합니다.

#Review #Large Language Models #Self-Reflection #Test-Time Optimization #Uncertainty Monitoring #Proactive Error Prevention #Reasoning Tasks #Chain-of-Thought

2025년 10월 7일

[논문리뷰] Factuality Matters: When Image Generation and Editing Meet Structured Visuals

본 연구는 최신 시각 생성 모델들이 차트, 다이어그램, 수학 도형과 같은 구조화된 시각 자료 생성 및 편집에서 보이는 한계를 해결하고자 합니다. 이러한 자료들은 구성 계획 , 텍스트 렌더링 , 멀티모달 추론 을 통한 사실적 정확성 을 요구하며, 이 분야에 대한 체계적인 탐구가 부족하다는 문제를 인식했습니다.

#Review #Structured Visuals #Image Generation #Image Editing #Multimodal Reasoning #Factual Fidelity #Chain-of-Thought #Evaluation Benchmark #Diffusion Models

2025년 10월 7일