Review

[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images

본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.

#Review #Multimodal LLM #Tool Learning #Code Generation #Reinforcement Learning #Image Manipulation #Robustness #Error Recovery #Programming Vision

2025년 12월 3일

[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

사전 학습된 Vision-Language-Action (VLA) 모델 을 지도 미세 조정(SFT)한 후 추론 시 발생하는 불안정성 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action Models #Anti-Exploration #Test-Time Scaling #Pseudo-Count #Coin Flipping Network #Offline Reinforcement Learning #Robotics

2025년 12월 3일

[논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

본 논문은 시각-언어 모델(VLM)이 실제 로봇 공학 애플리케이션에 필수적인 정밀한 공간 추론 능력 을 습득하도록 하는 것을 목표로 합니다.

#Review #Spatial Reasoning #Vision Language Models #Reinforcement Learning #Tool Augmentation #Robotics #Multi-Tool Use #Embodied AI

2025년 12월 3일

[논문리뷰] SkillFactory: Self-Distillation For Learning Cognitive Behaviors

본 논문은 기반 언어 모델(LLM)이 처음부터 갖추지 못한 인지적 스킬(예: 검증, 백트래킹, 재시도) 을 외부의 더 강력한 모델 없이 스스로 학습하도록 하는 SkillFactory 프레임워크를 제안합니다. 이를 통해 모델이 복잡한 추론 태스크에서 더 잘 일반화하고 견고성을 갖추도록 하는 것을 목표로 합니다.

#Review #Self-Distillation #Cognitive Skills #Reinforcement Learning #Supervised Fine-Tuning #Language Models #Reasoning #Verification #Retrying

2025년 12월 3일

[논문리뷰] SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

본 논문은 LLM을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 외부 감독(인간 주석의 희소성, 보상 모델 해킹, 프롬프트 민감도)의 한계를 극복하는 것을 목표로 합니다.

#Review #LLM Alignment #Stable Rank #Intrinsic Reward #Reinforcement Learning #Geometric Properties #Group Relative Policy Optimization #Annotation-Free Alignment

2025년 12월 3일

[논문리뷰] RELIC: Interactive Video World Model with Long-Horizon Memory

논문은 실시간 장기 스트리밍, 일관된 공간 메모리, 정밀한 사용자 제어라는 세 가지 핵심 요소를 동시에 만족하는 상호작용 가능한 비디오 월드 모델 을 구축하는 것을 목표로 합니다. 기존 접근 방식들이 이 중 하나만을 다루거나, 장기 메모리 메커니즘이 실시간 성능을 저하시키는 문제를 해결하고자 합니다.

#Review #Interactive World Model #Video Generation #Long-Horizon Memory #Real-Time Streaming #Diffusion Models #Autoregressive Models #Spatial Consistency #Unreal Engine

2025년 12월 3일

[논문리뷰] Qwen3-VL Technical Report

Qwen3-VL은 기존 Qwen 시리즈 중 가장 강력한 Vision-Language Model (VLM) 을 개발하여 광범위한 멀티모달 벤치마크에서 뛰어난 성능을 달성하는 것을 목표로 합니다.

#Review #Vision-Language Model #Multimodal Reasoning #Long-Context #Interleaved Data #Mixture-of-Experts #DeepStack #Agentic AI

2025년 12월 3일

[논문리뷰] PretrainZero: Reinforcement Active Pretraining

본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Active Learning #Pretraining #Large Language Models #Self-Supervised Learning #Masked Language Modeling #Generalization #Reasoning

2025년 12월 3일

[논문리뷰] OneThinker: All-in-one Reasoning Model for Image and Video

기존 MLLM(Multimodal Large Language Models)이 단일 태스크나 단일 모달리티(이미지 또는 비디오)에 국한되는 한계를 넘어, 이미지와 비디오 이해를 아우르는 다양한 시각 태스크를 동시에 처리할 수 있는 범용적인 추론 모델 인 'All-in-one multimodal reasoning generalist' 를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Reinforcement Learning #Visual Reasoning #Generalist Model #Image Understanding #Video Understanding #Multitask Learning #EMA-GRPO

2025년 12월 3일

[논문리뷰] Jina-VLM: Small Multilingual Vision Language Model

본 연구는 VLM의 실용적 배포를 저해하는 두 가지 주요 과제를 해결하는 것을 목표로 합니다. 첫째, 비전 적응 과정에서 발생하는 다국어 성능 저하 문제를 극복하고, 둘째, 고품질 VLM 훈련 및 배포의 높은 계산 비용을 줄여 접근성을 높이는 것입니다.

#Review #Vision-Language Model #Multilingual VLM #Small VLM #Visual Question Answering #Attention Pooling #Image Tiling #SigLIP #Qwen

2025년 12월 3일

[논문리뷰] In-Context Representation Hijacking

본 논문은 LLM의 내부 표현을 조작하여 안전 장치를 우회하는 새로운 형태의 탈옥(jailbreak) 공격인 'Doublespeak'을 소개합니다.

#Review #LLM Jailbreak #In-Context Learning #Representation Hijacking #Mechanistic Interpretability #LLM Safety #Adversarial Attack #Semantic Shift

2025년 12월 3일

[논문리뷰] Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment

본 논문은 Normalizing Flows (NFs) 의 생성 품질이 학습된 의미론적 표현의 부족으로 제한되는 문제를 해결하고자 합니다.

#Review #Normalizing Flows #Representation Alignment #Generative Models #TARFlow #Image Generation #Classification #Training Acceleration #Reverse Pass

2025년 12월 3일

[논문리뷰] CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

본 논문은 기존 확산 모델이 구조화된 다단계 시나리오, 특히 가변 길이 레시피 이미지 생성에서 일관성 및 유연성 부족을 겪는 문제를 해결합니다. 유연하고 일관되며 의미론적으로 분리된 다단계 레시피 이미지 생성을 위한 통합 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Multi-step Image Generation #Recipe Illustration #Diffusion Models #Consistent Generation #Regional Control #Positional Encoding #Ingredient Consistency #Procedural Content Generation

2025년 12월 3일

[논문리뷰] AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

기존 벤치마크들이 규칙 기반 교란이나 짧은 캡션에 의존하여 미세한 이미지-텍스트 정렬 능력을 측정하는 데 한계가 있음을 지적하며, AlignBench 라는 새로운 벤치마크를 통해 VLM의 미세한 이미지-텍스트 정렬 능력 을 평가하는 것을 목표로 합니다.

#Review #Image-Text Alignment #Multimodal Benchmarking #Hallucination Detection #Vision-Language Models #Synthetic Data Generation #Fine-Grained Analysis #Captioning

2025년 12월 3일

[논문리뷰] Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

본 논문은 기존의 오분류나 탈옥(jailbreak) 공격과 달리, 멀티모달 대규모 언어 모델(MLLMs)이 일관성 없거나 자신감 있게 틀린 출력을 생성하도록 유도하여 시스템적인 혼란(confusion)을 야기하는 새로운 유형의 적대적 공격인 Adversarial Confusion Attack 을 제안합니다.

#Review #Adversarial Attack #Multimodal Large Language Models (MLLMs)#Entropy Maximization #Confusion Attack #Black-box Transfer #PGD #AI Agent Safety

2025년 12월 3일

[논문리뷰] YingVideo-MV: Music-Driven Multi-Stage Video Generation

본 논문은 기존 오디오 기반 아바타 비디오 생성 모델에서 잘 다루어지지 않았던 음악 공연 비디오 생성 및 카메라 모션 제어의 한계를 극복하고자 합니다.

#Review #Music-Driven Video Generation #Diffusion Models #Multi-Stage Framework #Camera Control #Lip-Sync #Temporal Coherence #Video Diffusion Transformer

2025년 12월 2일

[논문리뷰] WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

본 논문은 기존 비디오 LLM이 긴 비디오(수 시간~수 일)를 처리할 때 직면하는 제한된 컨텍스트 용량 및 시각적 세부 정보 손실 문제를 해결하고자 합니다.

#Review #Long Video Reasoning #Multimodal Memory #Adaptive Retrieval #Video Large Language Models #Knowledge Graph #Multiscale Temporal Reasoning #Episodic Memory #Semantic Memory

2025년 12월 2일

[논문리뷰] Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation

본 논문은 비디오 생성 모델이 시각 데이터(비디오 컨텍스트) 만을 사용하여 인간의 인지와 유사한 시공간 지능(Visuospatial Intelligence) 을 발휘할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Video Generation #Spatial Reasoning #Visuospatial Intelligence #Diffusion Models #Context-Guided Generation #Scene Navigation #Object Grounding #Out-of-Domain Generalization

2025년 12월 2일

[논문리뷰] ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

본 논문은 기존 비디오-오디오 생성 모델이 모노 출력에 국한되어 공간적 몰입감이 부족하며, 기존 바이노럴 접근 방식이 2단계 파이프라인(모노 생성 후 공간화)으로 인한 오류 누적과 시공간 불일치 문제를 겪는 한계를 해결하고자 합니다.

#Review #Binaural Audio Generation #Spatial Audio #Video-Driven #End-to-End #Conditional Flow Matching #Multimodal AI #Deep Learning #Audio-Visual Synthesis

2025년 12월 2일

[논문리뷰] The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models

본 연구는 대규모 언어 모델(LLMs)의 내재된 메커니즘을 탐구하여 LLM이 유추 추론을 수행하는 방식을 이해하는 것을 목표로 합니다. 특히, LLM이 관계형 개념을 추출하고 새로운 상황에 적용하며, 표면적 유사성을 넘어 구조적 정렬을 통해 병렬 관계를 어떻게 식별하는지 밝히고자 합니다.

#Review #Analogical Reasoning #Large Language Models #Mechanistic Interpretability #Proportional Analogies #Story Analogies #Structural Alignment #Attention Knockout #Patchscopes

2025년 12월 2일