[논문리뷰] UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture본 연구는 Multimodal Large Language Models (MLLMs) 이 이미지의 미학, 품질, 구조, 텍스처와 같은 지각 수준의 특성을 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Perceptual Understanding#Image Aesthetics#Image Quality#Image Structure#Image Texture#MLLM Benchmark#Visual Question Answering#Reward Model2025년 12월 28일댓글 수 로딩 중
[논문리뷰] TimeBill: Time-Budgeted Inference for Large Language Models시간 제약이 있는 시스템(예: 로봇 공학, 자율 주행)에서 대규모 언어 모델(LLM)의 응답 성능을 유지하면서 주어진 시간 예산 내에 추론을 완료하는 문제를 해결하는 것이 목표입니다.#Review#LLM Inference#Time Budgeting#KV Cache Eviction#Response Length Prediction#Execution Time Estimation#Real-time AI#Performance Optimization2025년 12월 28일댓글 수 로딩 중
[논문리뷰] SlideTailor: Personalized Presentation Slide Generation for Scientific Papers이 논문은 기존 자동 슬라이드 생성 시스템이 사용자 선호도를 충분히 반영하지 못하여 만족스럽지 못한 결과물을 초래하는 문제를 해결하고자 합니다.#Review#Personalized Slide Generation#Preference Learning#Large Language Models#Multimodal AI#Chain-of-Speech#Agentic Framework#Document-to-Slides2025년 12월 28일댓글 수 로딩 중
[논문리뷰] See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning본 논문은 대규모 시각-언어 모델(VLM)이 미세한 시각적 증거(fine-grained visual evidence) 를 놓치고, 도메인 간 일반화 능력이 떨어지며, 추론 시 높은 비용을 유발하는 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Vision-Language Models (VLMs)#Perceptual Shaping#KL-Divergence#Chart Understanding#Data Augmentation#Reinforcement Learning (RL)#GRPO2025년 12월 28일댓글 수 로딩 중
[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering Agents본 논문은 소프트웨어 엔지니어링(SWE) 에이전트 개발에서 실행 기반 피드백(execution-based feedback) 의 한계(희소성, 낮은 식별 능력)를 극복하고자 합니다.#Review#Software Engineering Agents#Execution-free Feedback#Reward Model#Reinforcement Learning#Test-Time Scaling#Calibration#AUC#SWE-Bench2025년 12월 28일댓글 수 로딩 중
[논문리뷰] SVBench: Evaluation of Video Generation Models on Social Reasoning현재 텍스트-투-비디오(T2V) 생성 모델이 시각적 사실성과 모션 충실도에서 발전했음에도 불구하고, 사회적으로 일관된 행동 을 생성하는 데 근본적인 한계가 있음을 지적합니다.#Review#Video Generation#Social Reasoning#Benchmark#Evaluation#Agent-based Pipeline#Vision-Language Models#Social Cognition2025년 12월 28일댓글 수 로딩 중
[논문리뷰] ProEdit: Inversion-based Editing From Prompts Done Right본 논문은 기존의 inversion-based visual editing 방법론들이 소스 이미지 정보를 과도하게 주입하여, 대상 이미지의 편집 영역에서 주체의 속성(자세, 수, 색상 등)을 제대로 수정하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Inversion-based Editing#Text-to-Image Editing#Text-to-Video Editing#Diffusion Models#Flow-based Models#Attention Mechanism#Latent Space Manipulation#Plug-and-Play2025년 12월 28일댓글 수 로딩 중
[논문리뷰] Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding기존의 날씨 모델들이 예측(예: nowcasting, inversion)과 이해(예: 진단적 추론, 질의응답) 태스크를 개별적으로 다루는 문제를 해결하고자 합니다.#Review#Foundation Model#Multimodal AI#Weather Nowcasting#Radar Inversion#Weather Understanding#Chain-of-Thought#Shared Attention2025년 12월 28일댓글 수 로딩 중
[논문리뷰] Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding본 논문은 현재 RAG(Retrieval-Augmented Generation) 시스템이 인간의 '마인드스케이프(mindscape-aware)' 능력처럼 긴 문맥을 전체적으로 이해하는 능력이 부족하여 장문 컨텍스트(long-context) 태스크에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Retrieval Augmented Generation#Long Context Understanding#Mindscape-Aware#Hierarchical Summarization#Context-Aware Embeddings#Integrative Reasoning#LLMs2025년 12월 28일댓글 수 로딩 중
[논문리뷰] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents본 연구는 사용자 상호작용 부족, UI 전용 작업의 한계, 비실용적인 배포 아키텍처, 동적 환경에서의 취약성 등 기존 GUI 에이전트의 현실적인 배포 문제를 해결하고자 합니다.#Review#GUI Agents#Foundation Models#Reinforcement Learning#Device-Cloud Collaboration#Mobile Navigation#Tool Augmentation#User Interaction2025년 12월 28일댓글 수 로딩 중
[논문리뷰] InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion본 논문은 상업적 활용에 적합한 수준의 사실적인 비디오 객체 삽입(VOI) 을 달성하는 것을 목표로 합니다. 특히, 제한적인 4D 장면 이해 와 가려짐(occlusion) , 조명 효과 에 대한 부적절한 처리로 인해 발생하는 문제를 해결하여 기하학적으로 일관되고 외관상 충실한 비디오 합성을 구현하고자 합니다.#Review#Video Object Insertion (VOI)#4D Scene Geometry#Diffusion Models#Mask Generation#Temporal Consistency#Occlusion Handling#Illumination Synthesis#ROSE++ Dataset2025년 12월 28일댓글 수 로딩 중
[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search본 논문은 최신 개방형 멀티모달 에이전트가 복잡한 실세계 시각적 추론 작업(예: 고밀도 차트 분석, 지도 탐색)에서 보이는 한계를 해결하고자 합니다.#Review#Multimodal AI#Visual Search#Foundation Models#Multi-agent Systems#Reinforcement Learning#Benchmarking#Visual Reasoning2025년 12월 28일댓글 수 로딩 중
[논문리뷰] A 58-Addition, Rank-23 Scheme for General 3x3 Matrix Multiplication본 논문의 핵심 목표는 일반적인 비가환 링(non-commutative rings) 환경에서 3x3 행렬 곱셈 을 위한 랭크-23(rank-23) 알고리즘 의 가산 복잡도(additive complexity)를 최적화하는 것입니다.#Review#Matrix Multiplication#Additive Complexity#Algorithm Optimization#Ternary Flip-Graph#Heuristic Search#Common Subexpression Elimination#BLAS2025년 12월 28일댓글 수 로딩 중
[논문리뷰] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation본 논문은 Autoregressive (AR) 시각 생성 모델이 토큰 수준에서만 최적화되어 픽셀 공간에서 낮은 품질의 이미지를 생성하는 문제를 해결하고자 합니다.#Review#Autoregressive Generation#Pixel-Aware Alignment#Variational Optimization#Reinforcement Learning#Visual Tokenizers#Image Quality#ELBO#Post-Training Framework2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Spatia: Video Generation with Updatable Spatial Memory기존 비디오 생성 모델들이 직면한 장기적인 공간 및 시간적 일관성 유지의 어려움 을 해결하는 것을 목표로 합니다. 이를 위해 업데이트 가능한 3D 장면 포인트 클라우드 를 영구적인 공간 메모리로 활용하는 프레임워크인 Spatia를 제안하여, 고차원 비디오 신호의 밀집된 특성으로 인한 한계를 극복하고자 합니다.#Review#Video Generation#Spatial Memory#3D Scene Point Cloud#Spatial Consistency#Camera Control#Interactive Editing#Diffusion Models#Visual SLAM2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Schoenfeld's Anatomy of Mathematical Reasoning by Language Models대규모 언어 모델(LLM)의 추론 과정은 표면적인 통계 외에는 그 인지 구조와 단계를 파악하기 어렵습니다.#Review#LLM Reasoning#Cognitive Science#Schoenfeld's Episode Theory#Mathematical Problem Solving#Reasoning Dynamics#Interpretable AI#Behavioral Analysis2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Latent Implicit Visual Reasoning본 논문은 현재 대규모 멀티모달 모델(LMMs) 이 텍스트 중심적 추론에 치우쳐 있어 시각적 정보 처리가 많이 필요한 추론 태스크에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Large Multimodal Models (LMMs)#Visual Reasoning#Latent Tokens#Visual Bottlenecking#Implicit Learning#Task-agnostic#Attention Mechanisms2025년 12월 25일댓글 수 로딩 중
[논문리뷰] How Much 3D Do Video Foundation Models Encode?본 논문은 대규모 비디오 데이터로 사전 훈련된 Video Foundation Models (VidFMs) 내에 글로벌 3D 이해도가 자연스럽게 내재되어 있는지를 정량적으로 탐구하는 것을 목표로 합니다.#Review#Video Foundation Models#3D Understanding#3D Reconstruction#Model Agnostic#Feature Probing#Diffusion Models#Temporal Reasoning2025년 12월 25일댓글 수 로딩 중
[논문리뷰] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training멀티턴 강화 학습(RL) 기반 VLM(Vision-Language Model) 에이전트 훈련 의 주요 문제점인 희소한 보상, 긴 신용 할당 문제, 그리고 GTR(Guided Thought Reinforcement) 과 같은 기존 방법론에서 외부 교사 모델 사용으로 인한 높은 비용과 접근성 한계를 해결하는 것을 목표로 합니다.#Review#Multi-turn Reinforcement Learning#Vision-Language Models (VLMs)#Agentic AI#Knowledge Distillation#Model Merging#PPO#Thought Guidance#Cost Efficiency2025년 12월 25일댓글 수 로딩 중
[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times본 논문은 비디오 확산 모델의 엔드-투-엔드 생성 속도를 100~200배 가속화하면서도 비디오 품질을 유지하는 것을 목표로 합니다. 이는 현재 확산 모델의 높은 계산 비용으로 인한 비효율성을 해결하고, 고품질 비디오 생성을 더욱 실용적으로 만드는 데 중점을 둡니다.#Review#Video Generation#Diffusion Models#Acceleration#Quantization#Attention#Step Distillation#Performance Optimization#RTX 50902025년 12월 24일댓글 수 로딩 중