[논문리뷰] ESPO: Early-Stopping Proximal Policy Optimization본 논문은 LLM의 다단계 추론(Multi-step reasoning) 과정에서 발생하는 연산 비효율성과 잘못된 학습 신호 문제를 해결하기 위해 ESPO를 제안한다.#Review#Reinforcement Learning#Large Language Models#Proximal Policy Optimization#Early Stopping#Reasoning#Compute Efficiency#Credit Assignment2026년 6월 1일댓글 수 로딩 중
[논문리뷰] From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models본 연구는 기존 VLM이 Perception과 Reasoning 기능을 동시에 학습함으로써 발생하는 성능 저하와 최적화 불균형 문제를 해결하기 위해 시작되었습니다.#Review#Vision-Language Models#Post-Training#Perception#Reasoning#Decoupling#Multimodal Learning2026년 5월 24일댓글 수 로딩 중
[논문리뷰] ETCHR: Editing To Clarify and Harness ReasoningETCHR은 LLM의 CoT 생성 과정에 존재하는 논리적 결함과 불필요한 노이즈가 최종 성능을 저하시키는 문제를 해결하기 위해 고안되었습니다. 기존 LLM은 긴 Reasoning Path를 생성할 때 고수준의 논리적 일관성을 유지하는 데 한계를 보이며, 이는 결과적으로 정답률 감소로 이어집니다.#Review#Chain-of-Thought#Reasoning#Model Editing#Inference Optimization#LLM#Knowledge Distillation#Interpretability2026년 5월 24일댓글 수 로딩 중
[논문리뷰] Unsupervised Process Reward Models본 논문은 기존 PRM 학습에 필수적인 인간 전문가의 단계별 주석 데이터가 갖는 높은 비용과 확장성 문제를 해결하고자 합니다.#Review#Unsupervised Learning#Process Reward Models#Reinforcement Learning#Reasoning#Test-time Scaling#LLM-as-a-Judge2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information본 논문은 LLM의 추론 능력을 강화하기 위한 on-policy self-distillation 기법이 수학적 추론 과제에서 일관된 성능 향상을 보이지 못하는 문제를 해결합니다.#Review#Reinforcement Learning#Self-Distillation#Reasoning#Pointwise Mutual Information#LLM#GRPO#Jensen-Shannon Divergence2026년 5월 19일댓글 수 로딩 중
[논문리뷰] Nexus : An Agentic Framework for Time Series Forecasting본 논문은 기존 TSFM과 LLM 기반 시계열 예측 연구가 가진 구조적 한계를 해결하기 위해 Nexus를 제안한다.#Review#Time Series Forecasting#Large Language Models#Agentic Framework#Multimodal#Reasoning#Temporal Dynamics#Calibration2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning본 논문은 대규모 LLM의 추론 성능 향상을 위한 고비용의 post-training(instruction tuning, RL 등) 과정을 배제하고, 기존 Checkpoint 내에 잠재된 능력을 재조합하는 비용 효율적인 대안을 제시합니다.#Review#Model Merging#Evolutionary Optimization#Large Language Models#Reasoning#Diagnostic-Guided#Training-Free2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning본 논문은 LLM 추론 능력 향상에 필수적이라고 여겨지는 RL이 실제로 새로운 전략을 학습하는 것이 아니라, 베이스 모델 내에 이미 존재하는 솔루션들의 확률 분포를 재조정하는 것임을 밝힙니다. 기존의 RLVR은 전체 토큰에 대해 비효율적으로 경사 하강법을 수행하지만, 실제 추론 성능 개선은 극히 일부 지점에서 발생합니다.#Review#Large Language Models#Reinforcement Learning#Reasoning#Decision Points#Sparse Policy Selection#Contrastive Fine-Tuning#Entropy-Gated2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex본 논문은 현재의 Critic-free, group-based RLVR 기법들이 사용하는 advantage normalization이 실제로는 응답 심플렉스 위에서 잠재적인 목표 분포를 암묵적으로 구성하고 있음을 규명합니다.#Review#RLVR#Policy Optimization#Listwise#Target-Projection#Large Language Models#Reasoning#Gibbs Target2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models본 논문은 HDPO 프레임워크를 제안하여 태스크 정확도와 도구 효율성을 orthogonal하게 최적화합니다. 제안 방법론은 accuracy 채널과 efficiency 채널을 명확히 분리하며, efficiency 채널은 오직 정확한 결과를 도출한 경로(trajectory) 내에서만 도구 사용을 최소화하도록 조건부 advantage를 계산합니다 .#Review#Multimodal Large Language Models#Agentic Systems#Reinforcement Learning#Hierarchical Decoupled Policy Optimization#Meta-Cognitive Tool Use#Efficiency#Reasoning2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Learning to Hint for Reinforcement Learning본 논문은 GRPO 학습 중 어려운 문제에서 발생하는 Advantage Collapse 문제를 해결하고, 힌트가 모델의 실제 추론 능력 향상으로 이어지도록 하는 Transferability 문제를 다룹니다.#Review#Reinforcement Learning#Large Language Models#Reasoning#Hint Generation#Advantage Collapse#Transferability2026년 4월 8일댓글 수 로딩 중
[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice를 제안합니다. ThinkTwice는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 .#Review#Large Language Models#Reinforcement Learning#Reasoning#Self-Refinement#RLVR#Policy Optimization#Implicit Curriculum2026년 4월 7일댓글 수 로딩 중
[논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV Compression본 논문은 기존 KV Cache 압축 기법들이 post-RoPE 공간의 제한된 관측치에 의존하여 발생하는 불안정성 문제를 해결하고자 합니다. 기존 방식들은 회전이 적용된 post-RoPE 쿼리를 사용하므로, 대표성 있는 쿼리 확보가 어려워 중요한 토큰이 조기에 삭제되는 현상이 빈번합니다 .#Review#KV Cache#LLM#Attention#RoPE#Compression#Reasoning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Can LLMs Learn to Reason Robustly under Noisy Supervision?본 연구는 RLVR 학습 환경에서 불가피하게 발생하는 noisy label이 모델의 추론 성능에 미치는 치명적인 영향과 기존 연구의 한계를 체계적으로 분석합니다.#Review#RLVR#Noisy Label Learning#Online Label Refinement#Early Correctness Coherence#Large Language Models#Reasoning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning본 논문은 대규모 언어 모델의 일반적인 추론 성능을 향상시키면서, 불필요하게 긴 추론(Overthinking)을 방지하여 추론 비용과 지연 시간(Latency)을 최소화하는 것을 목표로 합니다.#Review#Reinforcement Learning#Chain-of-Thought#Efficiency#RLVR#Multi-Domain#Reasoning2026년 4월 2일댓글 수 로딩 중
[논문리뷰] daVinci-LLM:Towards the Science of Pretraining현재 LLM 생태계는 상업적 모델의 폐쇄성과 학계 모델의 컴퓨팅 자원 부족이라는 구조적 역설(Structural Paradox)에 직면해 있습니다.#Review#Pretraining#Data Darwinism#LLM#Transparency#Data Processing#Scaling Laws#Reasoning2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Think Anywhere in Code Generation기존의 Upfront Thinking 방식은 코드 생성 과정에서 발생하는 복잡한 문제 상황이나 예외적인 케이스들을 사전에 모두 예측하기 어렵다는 결정적인 한계가 있습니다 . 코드를 구현하는 도중에 문제의 복잡성이 드러나는 경우가 많음에도 불구하고, 기존 방식은 코드 생성 시작 전에만 추론을 수행하도록 제한되어 있습니다.#Review#Code Generation#Large Language Models#Reasoning#Reinforcement Learning#On-demand Reasoning#Adaptive Computation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] PLDR-LLMs Reason At Self-Organized Criticality본 연구는 Large Language Models (LLMs)에서 reasoning 능력이 어떻게 발현되며 이를 어떻게 효과적으로 정량화할 수 있는지에 대한 핵심 문제를 다룬다.#Review#PLDR-LLMs#Self-Organized Criticality#Reasoning#Deductive Outputs#Order Parameter#Phase Transitions#Generalization#Attention Mechanism2026년 3월 25일댓글 수 로딩 중
[논문리뷰] Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy DistillationReinforcement Learning (RL)은 LLM Post-Training의 핵심으로 부상하며 Reasoning, Agentic Capabilities, Real-World Problem-Solving 발전에 기여하고 있습니다.#Review#LLM Post-Training#Cascade RL#Multi-Domain On-Policy Distillation#Mixture-of-Experts#Reasoning#Agentic Capabilities#Competitive Programming#Mathematical Olympiad2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs본 논문은 복잡한 논리적 분해가 필요 없는 단순한 단일 홉 사실 질문에서 LLM의 추론이 어떻게 파라메트릭 지식 회상에 영향을 미치는지 밝히는 것을 목표로 합니다. 추론이 직관과 달리 모델의 지식 경계를 확장하는 메커니즘을 이해하고, 이를 통해 모델 정확도를 개선할 수 있는 실용적인 전략을 제시하고자 합니다.#Review#LLMs#Reasoning#Parametric Knowledge#Factual Recall#Hallucination#Computational Buffer#Factual Priming#Chain-of-Thought2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Recursive Think-Answer Process for LLMs and VLMs현재 Think-Answer 모델 들은 단일 패스(single-pass) 추론에 의존하여 'Oops!'와 같은 불확실성 신호를 보여도 자체 수정을 수행하지 못하고 오류에 취약합니다.#Review#LLMs#VLMs#Reasoning#Self-Correction#Reinforcement Learning#Confidence Estimation#Iterative Refinement#Think-Answer2026년 3월 2일댓글 수 로딩 중
[논문리뷰] LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval본 논문은 강력한 추론 능력을 가진 LLM 기반 dense retriever 가 복잡한 쿼리에 대해 높은 지연 시간 없이 추론 능력을 활용하지 못하는 문제를 해결하고자 합니다.#Review#Dense Retrieval#LLMs#Reasoning#Knowledge Distillation#Latent Space#Self-Distillation#Chain-of-Thought2026년 3월 2일댓글 수 로딩 중
[논문리뷰] DSDR: Dual-Scale Diversity Regularization for Exploration in LLM ReasoningLLM 추론을 위한 RLVR 훈련에서 발생하는 제한적인 탐색(limited exploration) 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 불충분한 로컬 무작위성이나 단일 스케일 다양성 조절에 그쳐 정책이 소수의 추론 패턴으로 수렴하고 깊은 탐색이 조기에 중단되는 문제를 극복하고자 합니다.#Review#Large Language Models (LLM)#Reinforcement Learning with Verifiers (RLVR)#Exploration#Diversity Regularization#Dual-Scale#Reasoning#Policy Optimization2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts컴팩트한 30억(3B) 파라미터 규모의 모델인 Nanbeige4.1-3B 를 개발하여 강력한 에이전트 행동, 코드 생성 및 일반적인 추론 능력을 동시에 달성하는 것을 목표로 합니다. 단일 소규모 언어 모델(SLM) 내에서 이러한 다재다능성을 입증하고, 3B 파라미터 모델의 잠재력을 재정의하고자 합니다.#Review#Small Language Model#Generalist AI#Reasoning#Code Generation#Agentic Behavior#Reinforcement Learning#Tool Use#Deep Search2026년 2월 16일댓글 수 로딩 중
[논문리뷰] LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models본 논문은 기존 확산 언어 모델(dLLMs) 기반 추론 시스템이 겪는 태스크 특이성, RL 학습 불안정성, 훈련 신호 부족 등의 문제를 해결하고자 합니다.#Review#Multimodal Diffusion Models#Reasoning#Reinforcement Learning#Supervised Finetuning#Visual Question Answering#Image Editing#Object Grounding#Policy Gradient2026년 2월 16일댓글 수 로딩 중
[논문리뷰] dVoting: Fast Voting for dLLMs본 논문은 확산 대규모 언어 모델( dLLMs )의 추론 능력을 훈련 없이 향상시키면서 기존 테스트 시간 스케일링 기법의 비효율성으로 인한 높은 추론 비용 문제를 해결하는 것을 목표로 합니다. 특히, dLLMs의 유연한 디코딩 프로세스를 활용하여 병렬 테스트 시간 스케일링의 잠재력을 최대한 발휘하고자 합니다.#Review#dLLMs#Diffusion Models#Test-Time Scaling#Voting#Reasoning#Masked Language Models#Parallel Decoding#Remasking2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities본 논문은 대규모 언어 모델(LLM)이 새롭고 복잡한 과학 정보에 대해 추론하는 능력의 불확실성을 해결하는 것을 목표로 합니다.#Review#Retrieval-Augmented Generation#Large Language Models#Reasoning#Benchmark#Deep Search#Error Analysis#Scientific Problem Solving#Context Understanding2026년 2월 5일댓글 수 로딩 중
[논문리뷰] The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models이 논문은 Diffusion Large Language Models (dLLMs)의 핵심 이점으로 여겨지는 임의 순서(arbitrary order) 생성 능력 이 실제 추론 잠재력을 제한한다는 역설적인 현상을 밝히고, dLLM의 추론 능력을 더 효과적으로 이끌어내기 위한 새로운 RL 방법론 을 제시하는 것을 목표로 합니다.#Review#Diffusion Language Models#Reasoning#Reinforcement Learning#Autoregressive Models#Generation Order#Entropy Degradation#Pass@k#GRPO2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론이 길고 저대역폭의 이산 토큰 시퀀스를 생성하는 문제점을 해결하고, 인간처럼 여러 가능한 다음 단계에 대한 분포를 유지하며 추론하는 확률적이고 샘플링 기반의 연속적 추론 메커니즘 을 개발하는 것을 목표로 합니다.#Review#Large Language Models#Reasoning#Chain-of-Thought#Reinforcement Learning#Stochastic Reasoning#Continuous Representation#Token Efficiency2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models대규모 언어 모델(LLM) 기반 에이전트가 '얕은 그라운딩(shallow grounding)' 문제로 인해 행동의 장기적 결과를 예측하지 못하여 발생하는 실패를 해결하는 것이 목표입니다.#Review#LLM Agents#World Models#Adaptive Planning#Lookahead#Reinforcement Learning#POMDP#Task Planning#Reasoning2026년 1월 14일댓글 수 로딩 중
[논문리뷰] MemoBrain: Executive Memory as an Agentic Brain for Reasoning본 논문은 도구 증강 에이전트 환경에서 장기적인 추론 과정 중 발생하는 LLM의 유한한 컨텍스트 문제 를 해결하고자 합니다.#Review#Executive Memory#LLM Agents#Reasoning#Context Management#Tool-Augmented Agents#Memory Management#Trajectory Folding#Preference Optimization2026년 1월 13일댓글 수 로딩 중
[논문리뷰] JudgeRLVR: Judge First, Generate Second for Efficient Reasoning본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 RLVR(Reinforcement Learning with Verifiable Rewards) 이 흔히 유발하는 장황하고 비효율적인 탐색 문제를 해결하고자 합니다.#Review#RLVR#LLMs#Reasoning#Judge-then-Generate#Quality-Efficiency#Discriminative Supervision#Mathematical Reasoning#Backtracking Reduction2026년 1월 13일댓글 수 로딩 중
[논문리뷰] DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 노출 편향(exposure bias) 과 오류 누적 문제를 해결하는 것을 목표로 합니다.#Review#Chain-of-Thought#Diffusion Models#Large Language Models#Reasoning#Error Correction#Preference Optimization#Denoising2026년 1월 8일댓글 수 로딩 중
[논문리뷰] ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing본 연구는 다중 모달 생성 모델을 활용한 지시 기반 이미지 편집에서 시각적 추론 능력의 한계 를 해결하고자 합니다. 특히, 기존 RL 방법론의 제한된 추론 탐색, 편향된 보상 통합, 불안정한 VLM 기반 지시 보상 문제를 극복하여, 추론 중심의 이미지 편집 품질을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Image Editing#Reasoning#Chain-of-Thought#Multimodal Generative Models#Reward Modeling#VLM2026년 1월 7일댓글 수 로딩 중
[논문리뷰] Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling본 연구는 7B 파라미터의 소규모 언어 모델(SLM)인 Falcon-H1R 이 대규모 모델(2배에서 7배 더 큼)과 경쟁하거나 능가하는 추론 성능을 달성할 수 있음을 입증하는 것을 목표로 합니다.#Review#Reasoning#Small Language Models (SLMs)#Hybrid Architecture#Test-Time Scaling (TTS)#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#DeepConf#Computational Efficiency2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다.#Review#Reinforcement Learning#Large Language Models#Exploration Strategy#Gradient-Guided#Reward Shaping#Reasoning#PPO2025년 12월 17일댓글 수 로딩 중
[논문리뷰] ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning본 논문은 강력한 Vision-Language Model (VLM) 을 탑재한 최신 비디오 통합 모델들이 추론 기반 시각 편집(reason-informed visual editing) 에서 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Video Editing#Reasoning#Unified Models#Self-Reflective Learning#Vision-Language Models (VLMs)#Diffusion Models#RVE-Bench2025년 12월 11일댓글 수 로딩 중
[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual WorldsSIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.#Review#Embodied AI#Generalist Agent#Virtual Worlds#Foundation Models#Gemini#Self-Improvement#Dialogue#Reasoning#Reinforcement Learning2025년 12월 4일댓글 수 로딩 중
[논문리뷰] SkillFactory: Self-Distillation For Learning Cognitive Behaviors본 논문은 기반 언어 모델(LLM)이 처음부터 갖추지 못한 인지적 스킬(예: 검증, 백트래킹, 재시도) 을 외부의 더 강력한 모델 없이 스스로 학습하도록 하는 SkillFactory 프레임워크를 제안합니다. 이를 통해 모델이 복잡한 추론 태스크에서 더 잘 일반화하고 견고성을 갖추도록 하는 것을 목표로 합니다.#Review#Self-Distillation#Cognitive Skills#Reinforcement Learning#Supervised Fine-Tuning#Language Models#Reasoning#Verification#Retrying2025년 12월 3일댓글 수 로딩 중
[논문리뷰] PretrainZero: Reinforcement Active Pretraining본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.#Review#Reinforcement Learning#Active Learning#Pretraining#Large Language Models#Self-Supervised Learning#Masked Language Modeling#Generalization#Reasoning2025년 12월 3일댓글 수 로딩 중
[논문리뷰] C^2DLM: Causal Concept-Guided Diffusion Large Language Models본 논문은 Autoregressive (AR) 및 Diffusion Language Models (DLMs)의 불충분한 추론 능력 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Large Language Models#Causality#Attention Mechanism#Reasoning#Natural Language Generation#Supervised Fine-Tuning#Concept-Guided2025년 12월 2일댓글 수 로딩 중
[논문리뷰] The Art of Scaling Test-Time Compute for Large Language Models이 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위한 테스트-타임 스케일링(TTS) 전략의 최적 선택 문제를 해결하는 것을 목표로 합니다.#Review#Test-Time Scaling#LLMs#Reasoning#Compute Efficiency#Inference Optimization#Decoding Strategies#Model Behavior2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM이 논문은 대규모 언어 모델(LLM)이 복잡한 다단계 추론 능력을 갖추고 있음에도 불구하고 높은 연산 요구사항으로 인해 엣지 또는 비용에 민감한 환경에서의 배포가 어렵다는 문제를 해결하고자 합니다.#Review#Small Language Models#Data Efficiency#Reasoning#Maximal-Update Parameterization#FP8 Mixed Precision#Optimizer Scheduling#Long-Context Adaptation#Agent AI2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward본 논문은 통합 멀티모달 모델(UMMs)에서 '이해' 능력이 '생성' 과정에 실제로 정보를 제공하고 안내하는지 여부를 조사합니다.#Review#Unified Multimodal Models#Understanding-Generation Gap#Reasoning#Knowledge Transfer#Chain-of-Thought#Self-Training#Synthetic Data#Evaluation Framework2025년 11월 25일댓글 수 로딩 중
[논문리뷰] MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism대규모 언어 모델(LLMs) 기반 멀티 에이전트 추론 시스템이 보상 잡음(reward noise) 과 훈련 비효율성 으로 인해 오픈 소스 모델에 일반화되기 어려운 문제를 해결하는 것이 목표입니다.#Review#Multi-Agent Systems#Reinforcement Learning#LLMs#Pipeline Parallelism#Reasoning#Reward Shaping#Agentic AI2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B이 논문은 소규모 모델이 강력한 추론 능력을 갖추기 어렵다는 기존의 통념에 도전하고, 1.5B 파라미터 의 경량 모델인 VibeThinker-1.5B 가 대규모 모델에 필적하는 추론 능력을 경제적으로 달성할 수 있음을 입증하는 것을 목표로 합니다.#Review#Small Language Models#Reasoning#Diversity Optimization#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Spectrum-to-Signal Principle (SSP)#Mathematical Reasoning#Code Generation2025년 11월 11일댓글 수 로딩 중
[논문리뷰] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL TuningMLLM(Multimodal Large Language Models)의 추론 능력 향상을 목표로 합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Post-training#Reasoning#Dual-Reward System#Thinking Reward#Judging Reward#Hallucination Reduction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation본 논문은 에이전트 시대의 추론 및 행동을 위한 시각 중심 코딩의 미개척 영역을 탐구합니다. 기존 RGB 픽셀 기반 이미지 표현의 제한된 상징적 추상화를 넘어서, 이미지를 SVG 코드 와 같은 압축적이고 해석 가능하며 실행 가능한 시각적 표현으로 변환하는 것을 목표로 합니다.#Review#Multimodal AI#Code Generation#SVG#Visual Representation#Benchmark#Large Vision-Language Models#Agentic AI#Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles논문은 Vision-Language Models (VLMs)이 Rebus Puzzles 를 이해하고 해결하는 능력을 평가하기 위한 크고 다양한 멀티모달 벤치마크를 제시하는 것을 목표로 합니다.#Review#Vision-Language Models#Multimodal Benchmark#Rebus Puzzles#In-Context Learning#Reasoning#ControlNet#Prompt Engineering2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings본 논문은 기존의 멀티모달 대규모 언어 모델(MLLMs) 기반 임베딩 모델 이 판별적(discriminative)이라는 한계를 해결하고, 추론 중심의 생성 패러다임의 이점을 활용하는 것을 목표로 합니다.#Review#Multimodal Embeddings#Generative AI#Reasoning#Reinforcement Learning#MLLMs#Supervised Fine-tuning#Information Retrieval#Unified Embeddings2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Variational Reasoning for Language Models언어 모델(LLM)의 추론 능력 훈련에 사용되는 지도 미세 조정(SFT) 및 강화 학습(RL) 방법론의 한계를 극복하고, 생각 과정(thinking traces) 을 잠재 변수 로 간주하여 변분 추론(Variational Inference) 을 통해 최적화하는 원칙적이고 안정적인 프레임워크를 제시하는 것을 목표로 합니다.#Review#Variational Inference#Language Models#Reasoning#ELBO#IWAE#Reinforcement Learning#Latent Variables#Forward-KL2025년 9월 29일댓글 수 로딩 중
[논문리뷰] PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model ReasoningLLM 추론을 위한 고품질 훈련 문제의 부족이라는 핵심 병목 현상을 해결하고자 합니다.#Review#Prompt Synthesis#Large Language Models#Reasoning#Expectation-Maximization#Self-Play#Supervised Fine-Tuning#Task Generation#Rationale Generation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Thinking Augmented Pre-training본 논문은 대규모 언어 모델(LLM) 훈련 시 고품질 데이터의 제한된 가용성과 복잡한 추론 토큰 학습의 어려움이라는 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Pre-training#Data Augmentation#Reasoning#Data Efficiency#Thinking Trajectories2025년 9월 26일댓글 수 로딩 중
[논문리뷰] GenExam: A Multidisciplinary Text-to-Image Exam기존 텍스트-투-이미지(T2I) 벤치마크들이 일반적인 세계 지식이나 개념 설명에 치우쳐 엄격한 도면 시험 평가에 미흡하다는 문제점을 해결하고자 합니다.#Review#Text-to-Image Generation#Multidisciplinary#Benchmark#Evaluation#AGI#Reasoning#Scoring System#Visual Question Answering2025년 9월 18일댓글 수 로딩 중
[논문리뷰] DCPO: Dynamic Clipping Policy Optimization본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 기존 방법론(예: GRPO)의 한계를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM#Policy Optimization#Dynamic Clipping#Advantage Standardization#RLVR#Reasoning2025년 9월 3일댓글 수 로딩 중
[논문리뷰] R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning본 논문은 복잡한 추론 문제에서 뛰어난 성능을 보이는 기존 MLLM의 step-by-step 사고(thinking) 과정이 단순 문제에서는 불필요한 연산 오버헤드를 유발하는 비효율성을 해결하고자 합니다.#Review#Multimodal Large Language Models (MLLMs)#Auto-Thinking#Reinforcement Learning (RL)#Bi-mode Annealing#Bi-mode Policy Optimization (BPO)#General-Purpose AI#Reasoning#Efficiency2025년 9월 1일댓글 수 로딩 중
[논문리뷰] AHELM: A Holistic Evaluation of Audio-Language Models오디오-언어 모델(ALMs)의 표준화된 벤치마크 부족 문제를 해결하고, 기존 평가들이 제한된 기능에만 초점을 맞추며 공정성 및 안전성 같은 중요한 측면을 간과하는 한계를 극복하는 것을 목표로 합니다.#Review#Audio-Language Models#Holistic Evaluation#Benchmarking#Multimodality#Fairness#Robustness#Reasoning#Bias Detection2025년 9월 1일댓글 수 로딩 중
[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling대규모 언어 모델(LLMs)을 강화 학습(RL)으로 정렬하는 과정에서 발생하는 높은 온-정책 롤아웃 비용 과 다양한 추론 경로 탐색의 한계 를 해결하고자 합니다. 본 논문은 시퀀스 생성을 트리 구조 검색 과정 으로 모델링하여 정책 최적화의 효율성과 추론 성능 간의 격차를 해소하는 것을 목표로 합니다.#Review#Reinforcement Learning#Policy Optimization#Large Language Models#Inference Efficiency#Tree Search#Segment-level Decoding#Advantage Estimation#Reasoning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency본 연구는 오픈소스 멀티모달 모델인 InternVL 시리즈를 다용성, 추론 능력, 그리고 추론 효율성 측면에서 발전시키는 것을 목표로 합니다. 특히, 최첨단 상업 모델인 GPT-5 와의 성능 격차를 줄이고, 실제 멀티모달 LLM(MLLM) 애플리케이션의 계산 병목 현상을 해결하고자 합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Inference Efficiency#Vision-Language Models#Open-Source#Versatility#Reasoning2025년 8월 26일댓글 수 로딩 중
[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Supervised Fine-Tuning#On-Policy RL#Off-Policy Experts#Dynamic Weighting#LLM Alignment#Reasoning2025년 8월 21일댓글 수 로딩 중
[논문리뷰] MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence본 논문은 AI 시스템의 청각 지능을 포괄적으로 평가하는 데 있어 기존 벤치마크의 한계를 극복하고, 홀리스틱 오디오 이해 능력 을 종합적으로 측정하기 위한 새롭고 도전적인 벤치마크 MMAU-Pro 를 제안합니다.#Review#Audio Intelligence#Multimodal AI#Benchmark#Audio-Language Models#Holistic Evaluation#Reasoning#Long-Form Audio#Multicultural Music2025년 8월 20일댓글 수 로딩 중
[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents기존 웹 브라우징 벤치마크가 주로 텍스트 정보에만 초점을 맞춰 멀티모달 콘텐츠의 중요성을 간과하는 문제를 해결하고자 합니다.#Review#Multimodal Browsing#AI Agents#Benchmark#Vision-Language Models#Reasoning#Tool Use#Deep Search2025년 8월 20일댓글 수 로딩 중
[논문리뷰] HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs본 논문은 인간 중심 시나리오에서 MLLM(Multimodal Large Language Models) 의 심층적인 이해 및 공감적, 상황 인지적 응답 능력을 평가하기 위한 세분화된 평가 프레임워크의 부족 문제 를 해결하고자 합니다.#Review#Multimodal LLMs#Human-Centered AI#Empathy#Context-Awareness#MLLM Benchmark#Reinforcement Learning#Reasoning2025년 8월 15일댓글 수 로딩 중
[논문리뷰] AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance대규모 언어 모델(LLM)이 추론 태스크에서 겪는 catastrophic forgetting 및 모방(imitation) 과 탐색(exploration) 간의 최적화되지 않은 트레이드오프 문제를 해결하는 것이 목표입니다.#Review#Large Language Models#Fine-tuning#Reinforcement Learning#Meta-learning#Adaptive Control#Imitation Learning#Exploration#Reasoning2025년 8월 14일댓글 수 로딩 중
[논문리뷰] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models본 논문은 오픈소스 MoE(Mixture-of-Experts) 기반 대규모 언어 모델인 GLM-4.5 를 소개합니다. 핵심 목표는 에이전트, 추론, 코딩(ARC) 태스크 전반에서 강력한 성능을 달성하고, 사고 및 직접 응답 모드를 지원하는 하이브리드 추론 방식을 통해 계산 효율성을 극대화하는 것입니다.#Review#Large Language Model#Mixture-of-Experts#Agentic AI#Reasoning#Code Generation#Reinforcement Learning#Foundation Model2025년 8월 11일댓글 수 로딩 중
[논문리뷰] R-Zero: Self-Evolving Reasoning LLM from Zero Data본 연구는 기존 LLM의 자가 진화 방식이 방대한 인간 큐레이션 데이터 에 의존하는 한계를 극복하고자 합니다.#Review#Self-Evolving LLM#Reinforcement Learning#Curriculum Learning#Reasoning#Large Language Models#Self-Play#Zero-Data Training2025년 8월 8일댓글 수 로딩 중
[논문리뷰] InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 확장 가능 하고 샘플 효율적인 후속 학습 프레임워크인 InfiAlign 을 제안합니다. 특히, 데이터 및 계산 비용이 많이 드는 기존 방법론의 한계를 극복하고, 적은 양의 고품질 데이터로도 LLM 정렬을 효과적으로 수행하는 것을 목표로 합니다.#Review#LLM Alignment#Reasoning#Data Curation#Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#Sample Efficiency#Scalability#Multi-dimensional Filtering2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following본 논문은 대규모 언어 모델(LLMs)이 복잡한 지시를 따를 때 흔히 발생하는 '게으른 추론' 문제로 인한 일관성 부족을 해결하고자 합니다.#Review#LLMs#Instruction Following#Reasoning#Reinforcement Learning#Supervised Fine-tuning#Entropy Regularization#Self-Checking#Previewing2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 이 진정한 논리적 추론이 아닌, 훈련 데이터 분포에 강하게 의존하는 표면적인 패턴 매칭 일 가능성을 탐구합니다.#Review#Chain-of-Thought#LLMs#OOD Generalization#Data Distribution Shift#Reasoning#Pattern Matching#DataAlchemy2025년 8월 7일댓글 수 로딩 중
[논문리뷰] 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding본 논문은 기존 3D Vision-Language Models (VLMs)이 복잡한 공간 관계 추론 및 일반화에서 겪는 한계를 해결하고자 합니다. 이는 고품질 공간 데이터의 부족과 고정된 시점 가정으로 인해 발생하며, 모델의 추론 능력과 다양한 3D 환경에서의 일반화 성능을 향상시키는 것을 목표로 합니다.#Review#3D Vision-Language Models#Reasoning#Scene Understanding#Reinforcement Learning#Chain-of-Thought#Dynamic View Selection#Multi-task Learning2025년 8월 4일댓글 수 로딩 중
[논문리뷰] The Era of Agentic Organization: Learning to Organize with Language Models본 논문은 AI가 개별 지능의 한계를 넘어 협력적이고 동시적으로 복잡한 문제를 해결하는 '에이전트 조직(agentic organization)' 시대를 목표로 합니다.#Review#Agentic Organization#Asynchronous Thinking#Language Models#Reinforcement Learning#Multi-agent Systems#Reasoning#Task Decomposition#Orchestration2025년 10월 31일댓글 수 로딩 중
[논문리뷰] FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable ReasoningRLVR(Reinforcement Learning with Verifiable Rewards)을 활용한 LLM(Large Language Model) 학습 시, '오류가 있지만 정답인 롤아웃'(flawed-positive rollouts)이 신뢰할 수 없는 추론 패턴을 강화하여 성능을 제한하는 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Reasoning#Policy Optimization#Reward Modeling#Flawed Reasoning#Reliable AI#Error Detection2025년 10월 30일댓글 수 로딩 중
[논문리뷰] LaSeR: Reinforcement Learning with Last-Token Self-Rewarding본 연구는 대규모 언어 모델(LLM)의 추론 능력을 강화하는 검증 가능한 보상 강화 학습(RLVR) 의 한계, 즉 테스트 시점에서의 검증 신호 부족과 기존 자가 검증 방법론의 비효율성을 해결하고자 합니다.#Review#Reinforcement Learning#LLM#Self-Verification#Last-Token#Reward Modeling#Efficiency#Reasoning#RLVR2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark본 논문은 통합 멀티모달 모델의 생성(Generation) 및 이해(Understanding) 능력 간의 실제적인 상호작용 을 평가하는 기존 벤치마크의 한계를 해결하는 것을 목표로 합니다.#Review#Multimodal AI#Unified Models#Benchmark#Generation#Understanding#Reasoning#Evaluation#Cross-modal Synergy2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Generative Universal Verifier as Multimodal Meta-Reasoner본 논문은 차세대 멀티모달 추론 및 통합 모델을 위한 생성형 범용 검증기(Generative Universal Verifier, GUV) 개념과 플러그인을 소개합니다.#Review#Multimodal AI#Visual Verification#Generative Models#Self-Refinement#Vision-Language Models#Test-Time Scaling#Reasoning2025년 10월 16일댓글 수 로딩 중
[논문리뷰] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs본 논문은 현대 다중 모달 대규모 언어 모델(MLLMs) 이 물리적 도구를 얼마나 깊이 이해하는지 정량적으로 평가하는 것을 목표로 합니다. 특히, 임베디드 AI 에이전트가 실제 환경에서 도구를 효과적으로 사용하고, 심지어 새로운 도구를 만들어내는 데 필요한 물리적 도구 이해 능력의 현황과 한계를 파악하고자 합니다.#Review#Multimodal Large Language Models (MLLMs)#Physical Tool Understanding#Benchmarking#Embodied AI#Visual Question Answering (VQA)#Tool Affordances#Reasoning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval기존 멀티모달 검색 벤치마크의 한계(일반 도메인, 단순 의미 매칭, 단일 이미지/단일 모달 문서)를 극복하고, 전문가 수준의 다학제적 지식과 심층적인 추론 을 요구하는 현실적인 멀티모달 검색 벤치마크를 구축하는 것을 목표로 합니다.#Review#Multimodal Retrieval#Benchmark#Reasoning#Multidisciplinary#Expert-Level#Image-Text Interleaving#Contradiction Retrieval2025년 10월 13일댓글 수 로딩 중
[논문리뷰] KORMo: Korean Open Reasoning Model for Everyone본 논문은 한국어와 영어를 지원하는 최초의 완전 공개(Fully Open) 이중 언어 대규모 언어 모델(LLM) 인 KORMo 를 구축하는 것을 목표로 합니다.#Review#Large Language Model#Korean#Bilingual#Synthetic Data#Fully Open Model#Tokenizer#Reasoning#Pretraining#Instruction Tuning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Dyna-Mind: Learning to Simulate from Experience for Better AI AgentsAI 에이전트가 복잡하고 장기적인 대화형 태스크에서 '대리 시행착오(vicarious trial and error)' 능력을 통해 현재의 한계를 극복하고, 환경을 mentally simulate하여 추론 및 의사결정 성능을 향상시키는 것을 목표로 합니다.#Review#AI Agents#Reinforcement Learning#World Models#Simulation#Reasoning#Language Models#Planning#Interactive AI2025년 10월 13일댓글 수 로딩 중
[논문리뷰] First Try Matters: Revisiting the Role of Reflection in Reasoning Models본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 '반영(reflection)'의 실제 기여도를 체계적으로 분석하는 것을 목표로 합니다. 특히, 모델이 이미 후보 답변을 생성한 후에도 계속되는 추론 단계가 오류 수정에 실질적으로 도움이 되는지, 아니면 초기 결론을 재확인하는 역할을 하는지 밝히고자 합니다.#Review#Large Language Models (LLMs)#Reasoning#Chain-of-Thought (CoT)#Reflection#Early Stopping#Supervised Fine-tuning (SFT)#Token Efficiency#Mathematical Reasoning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation기존 비디오 생성 모델들이 복잡한 다이내믹스와 인과적으로 일관된 결과를 생성하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 시각적 상태 전이와 시간 경과에 따른 결과의 논리적 일관성 부족을 개선하기 위해 대규모 멀티모달 모델의 추론 능력을 비디오 생성에 통합하고자 합니다.#Review#Video Generation#Chain-of-Thought#Multimodal Models#Reasoning#Inference-Time Tuning#Sparse Supervision#Diffusion Models#Keyframe Generation2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Reasoning with Sampling: Your Base Model is Smarter Than You Think본 논문은 LLM의 RL-사후 훈련(RL-posttraining)이 진정으로 새로운 추론 능력을 부여하는지, 아니면 기본 모델의 기존 능력을 '선명하게' 하는 것인지에 대한 질문에 답하고자 합니다.#Review#LLMs#MCMC#Sampling#Reasoning#Distribution Sharpening#Reinforcement Learning (RL)#Inference-time Optimization#Training-free2025년 10월 27일댓글 수 로딩 중
[논문리뷰] PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies과학 논문 내 텍스트, 그림, 표, 수식 등 다양한 모달리티 간의 불일치(inconsistencies) 를 LMM이 얼마나 신뢰성 있게 이해하고 추론하며 해결할 수 있는지를 평가하는 것을 목표로 합니다. 기존 벤치마크들이 합성 오류 나 단일 모달리티 에 집중하여 실세계 복잡성을 포착하지 못하는 한계를 극복하고자 합니다.#Review#Large Multimodal Models (LMMs)#Scientific Document Analysis#Multimodal Inconsistencies#Peer Review#Benchmark#Debiasing#JSON-based Representation#Reasoning2025년 10월 22일댓글 수 로딩 중
[논문리뷰] CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs본 연구는 추론 태스크에서 대규모 언어 모델( LLMs )의 훈련 효율성을 향상시키는 것을 목표로 합니다.#Review#Curriculum Learning#LLMs#Reasoning#Gradient Optimization#Reinforcement Learning#Bayesian Inference#Sample Efficiency2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap본 논문은 실시간 대화 제약 조건 하에서 음성 대화형 시스템의 추론 능력을 평가하고, 텍스트 모델과 비교하여 발생하는 심각한 성능 저하, 즉 Voice Reasoning Gap (VRG) 을 진단하는 것을 목표로 합니다.#Review#Voice AI#LLM#Reasoning#Benchmark#Modality Gap#Latency#Speech Recognition#Generative AI#Real-time Systems#Conversational AI2025년 10월 1일댓글 수 로딩 중
[논문리뷰] More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models이 논문은 Vision-Language Models (VLMs)의 추론이 논리적 추론을 강화하지만, 기본적인 시각적 질문에서 인식 기반(perceptual grounding)을 손상시켜 인식 실패를 초래하는 이중적인 특성을 탐구합니다.#Review#Vision-Language Models#Multimodal Reasoning#Reasoning#Visual Forgetting#Perceptual Grounding#Reinforcement Learning#Policy Optimization#Visual Anchors2025년 10월 1일댓글 수 로딩 중