Review

[논문리뷰] UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture

본 연구는 Multimodal Large Language Models (MLLMs) 이 이미지의 미학, 품질, 구조, 텍스처와 같은 지각 수준의 특성을 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Perceptual Understanding #Image Aesthetics #Image Quality #Image Structure #Image Texture #MLLM Benchmark #Visual Question Answering #Reward Model

2025년 12월 28일

[논문리뷰] TimeBill: Time-Budgeted Inference for Large Language Models

시간 제약이 있는 시스템(예: 로봇 공학, 자율 주행)에서 대규모 언어 모델(LLM)의 응답 성능을 유지하면서 주어진 시간 예산 내에 추론을 완료하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Inference #Time Budgeting #KV Cache Eviction #Response Length Prediction #Execution Time Estimation #Real-time AI #Performance Optimization

2025년 12월 28일

[논문리뷰] SlideTailor: Personalized Presentation Slide Generation for Scientific Papers

이 논문은 기존 자동 슬라이드 생성 시스템이 사용자 선호도를 충분히 반영하지 못하여 만족스럽지 못한 결과물을 초래하는 문제를 해결하고자 합니다.

#Review #Personalized Slide Generation #Preference Learning #Large Language Models #Multimodal AI #Chain-of-Speech #Agentic Framework #Document-to-Slides

2025년 12월 28일

[논문리뷰] See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

본 논문은 대규모 시각-언어 모델(VLM)이 미세한 시각적 증거(fine-grained visual evidence) 를 놓치고, 도메인 간 일반화 능력이 떨어지며, 추론 시 높은 비용을 유발하는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Vision-Language Models (VLMs)#Perceptual Shaping #KL-Divergence #Chart Understanding #Data Augmentation #Reinforcement Learning (RL)#GRPO

2025년 12월 28일

[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering Agents

본 논문은 소프트웨어 엔지니어링(SWE) 에이전트 개발에서 실행 기반 피드백(execution-based feedback) 의 한계(희소성, 낮은 식별 능력)를 극복하고자 합니다.

#Review #Software Engineering Agents #Execution-free Feedback #Reward Model #Reinforcement Learning #Test-Time Scaling #Calibration #AUC #SWE-Bench

2025년 12월 28일

[논문리뷰] SVBench: Evaluation of Video Generation Models on Social Reasoning

현재 텍스트-투-비디오(T2V) 생성 모델이 시각적 사실성과 모션 충실도에서 발전했음에도 불구하고, 사회적으로 일관된 행동 을 생성하는 데 근본적인 한계가 있음을 지적합니다.

#Review #Video Generation #Social Reasoning #Benchmark #Evaluation #Agent-based Pipeline #Vision-Language Models #Social Cognition

2025년 12월 28일

[논문리뷰] ProEdit: Inversion-based Editing From Prompts Done Right

본 논문은 기존의 inversion-based visual editing 방법론들이 소스 이미지 정보를 과도하게 주입하여, 대상 이미지의 편집 영역에서 주체의 속성(자세, 수, 색상 등)을 제대로 수정하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Inversion-based Editing #Text-to-Image Editing #Text-to-Video Editing #Diffusion Models #Flow-based Models #Attention Mechanism #Latent Space Manipulation #Plug-and-Play

2025년 12월 28일

[논문리뷰] Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding

기존의 날씨 모델들이 예측(예: nowcasting, inversion)과 이해(예: 진단적 추론, 질의응답) 태스크를 개별적으로 다루는 문제를 해결하고자 합니다.

#Review #Foundation Model #Multimodal AI #Weather Nowcasting #Radar Inversion #Weather Understanding #Chain-of-Thought #Shared Attention

2025년 12월 28일

[논문리뷰] Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

본 논문은 현재 RAG(Retrieval-Augmented Generation) 시스템이 인간의 '마인드스케이프(mindscape-aware)' 능력처럼 긴 문맥을 전체적으로 이해하는 능력이 부족하여 장문 컨텍스트(long-context) 태스크에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Retrieval Augmented Generation #Long Context Understanding #Mindscape-Aware #Hierarchical Summarization #Context-Aware Embeddings #Integrative Reasoning #LLMs

2025년 12월 28일

[논문리뷰] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

본 연구는 사용자 상호작용 부족, UI 전용 작업의 한계, 비실용적인 배포 아키텍처, 동적 환경에서의 취약성 등 기존 GUI 에이전트의 현실적인 배포 문제를 해결하고자 합니다.

#Review #GUI Agents #Foundation Models #Reinforcement Learning #Device-Cloud Collaboration #Mobile Navigation #Tool Augmentation #User Interaction

2025년 12월 28일

[논문리뷰] InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

본 논문은 상업적 활용에 적합한 수준의 사실적인 비디오 객체 삽입(VOI) 을 달성하는 것을 목표로 합니다. 특히, 제한적인 4D 장면 이해 와 가려짐(occlusion) , 조명 효과 에 대한 부적절한 처리로 인해 발생하는 문제를 해결하여 기하학적으로 일관되고 외관상 충실한 비디오 합성을 구현하고자 합니다.

#Review #Video Object Insertion (VOI)#4D Scene Geometry #Diffusion Models #Mask Generation #Temporal Consistency #Occlusion Handling #Illumination Synthesis #ROSE++ Dataset

2025년 12월 28일

[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

본 논문은 최신 개방형 멀티모달 에이전트가 복잡한 실세계 시각적 추론 작업(예: 고밀도 차트 분석, 지도 탐색)에서 보이는 한계를 해결하고자 합니다.

#Review #Multimodal AI #Visual Search #Foundation Models #Multi-agent Systems #Reinforcement Learning #Benchmarking #Visual Reasoning

2025년 12월 28일

[논문리뷰] A 58-Addition, Rank-23 Scheme for General 3x3 Matrix Multiplication

본 논문의 핵심 목표는 일반적인 비가환 링(non-commutative rings) 환경에서 3x3 행렬 곱셈 을 위한 랭크-23(rank-23) 알고리즘 의 가산 복잡도(additive complexity)를 최적화하는 것입니다.

#Review #Matrix Multiplication #Additive Complexity #Algorithm Optimization #Ternary Flip-Graph #Heuristic Search #Common Subexpression Elimination #BLAS

2025년 12월 28일

[논문리뷰] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

본 논문은 Autoregressive (AR) 시각 생성 모델이 토큰 수준에서만 최적화되어 픽셀 공간에서 낮은 품질의 이미지를 생성하는 문제를 해결하고자 합니다.

#Review #Autoregressive Generation #Pixel-Aware Alignment #Variational Optimization #Reinforcement Learning #Visual Tokenizers #Image Quality #ELBO #Post-Training Framework

2025년 12월 25일

[논문리뷰] Spatia: Video Generation with Updatable Spatial Memory

기존 비디오 생성 모델들이 직면한 장기적인 공간 및 시간적 일관성 유지의 어려움 을 해결하는 것을 목표로 합니다. 이를 위해 업데이트 가능한 3D 장면 포인트 클라우드 를 영구적인 공간 메모리로 활용하는 프레임워크인 Spatia를 제안하여, 고차원 비디오 신호의 밀집된 특성으로 인한 한계를 극복하고자 합니다.

#Review #Video Generation #Spatial Memory #3D Scene Point Cloud #Spatial Consistency #Camera Control #Interactive Editing #Diffusion Models #Visual SLAM

2025년 12월 25일

[논문리뷰] Schoenfeld's Anatomy of Mathematical Reasoning by Language Models

대규모 언어 모델(LLM)의 추론 과정은 표면적인 통계 외에는 그 인지 구조와 단계를 파악하기 어렵습니다.

#Review #LLM Reasoning #Cognitive Science #Schoenfeld's Episode Theory #Mathematical Problem Solving #Reasoning Dynamics #Interpretable AI #Behavioral Analysis

2025년 12월 25일

[논문리뷰] Latent Implicit Visual Reasoning

본 논문은 현재 대규모 멀티모달 모델(LMMs) 이 텍스트 중심적 추론에 치우쳐 있어 시각적 정보 처리가 많이 필요한 추론 태스크에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Visual Reasoning #Latent Tokens #Visual Bottlenecking #Implicit Learning #Task-agnostic #Attention Mechanisms

2025년 12월 25일

[논문리뷰] How Much 3D Do Video Foundation Models Encode?

본 논문은 대규모 비디오 데이터로 사전 훈련된 Video Foundation Models (VidFMs) 내에 글로벌 3D 이해도가 자연스럽게 내재되어 있는지를 정량적으로 탐구하는 것을 목표로 합니다.

#Review #Video Foundation Models #3D Understanding #3D Reconstruction #Model Agnostic #Feature Probing #Diffusion Models #Temporal Reasoning

2025년 12월 25일

[논문리뷰] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

멀티턴 강화 학습(RL) 기반 VLM(Vision-Language Model) 에이전트 훈련 의 주요 문제점인 희소한 보상, 긴 신용 할당 문제, 그리고 GTR(Guided Thought Reinforcement) 과 같은 기존 방법론에서 외부 교사 모델 사용으로 인한 높은 비용과 접근성 한계를 해결하는 것을 목표로 합니다.

#Review #Multi-turn Reinforcement Learning #Vision-Language Models (VLMs)#Agentic AI #Knowledge Distillation #Model Merging #PPO #Thought Guidance #Cost Efficiency

2025년 12월 25일

[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

본 논문은 비디오 확산 모델의 엔드-투-엔드 생성 속도를 100~200배 가속화하면서도 비디오 품질을 유지하는 것을 목표로 합니다. 이는 현재 확산 모델의 높은 계산 비용으로 인한 비효율성을 해결하고, 고품질 비디오 생성을 더욱 실용적으로 만드는 데 중점을 둡니다.

#Review #Video Generation #Diffusion Models #Acceleration #Quantization #Attention #Step Distillation #Performance Optimization #RTX 5090

2025년 12월 24일