Review

[논문리뷰] Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process

기존 VLA(Vision-Language-Action) 모델이 비전 생성 및 행동 예측을 분리하여 다루거나 외부 전문가에 의존하는 한계를 극복하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Diffusion Models #Discrete Denoising #Multimodal Learning #Robotics #Embodied AI #Joint Generation #Action Prediction

2025년 11월 9일

[논문리뷰] UniREditBench: A Unified Reasoning-based Image Editing Benchmark

기존 이미지 편집 벤치마크의 한계, 즉 단일 객체 속성 변환에만 집중 하고 멀티 객체 상호작용 및 게임 세계 시나리오를 간과 하며 텍스트 기반 평가의 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Reasoning-based AI #Benchmark #Multimodal Learning #Chain-of-Thought (CoT)#Dual-Reference Evaluation #Generative Models #Game AI

2025년 11월 9일

[논문리뷰] UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback

기존 확산 모델 기반 relighting 기법의 물리적 비일관성 문제(예: 과노출 하이라이트, 그림자 부정확성)를 해결하고, 물리적으로 그럴듯하며 세밀하게 제어 가능한 이미지 및 비디오 relighting을 위한 통합 프레임워크(UniLumos) 를 개발하는 것을 목표로 합니다.

#Review #Relighting #Diffusion Models #Flow Matching #Physics-Plausible Feedback #Image-to-Video #Geometric Supervision #Path Consistency Learning #LumosBench

2025년 11월 9일

[논문리뷰] UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

본 논문은 기존의 멀티모달 대규모 언어 모델(MLLMs) 기반 임베딩 모델 이 판별적(discriminative)이라는 한계를 해결하고, 추론 중심의 생성 패러다임의 이점을 활용하는 것을 목표로 합니다.

#Review #Multimodal Embeddings #Generative AI #Reasoning #Reinforcement Learning #MLLMs #Supervised Fine-tuning #Information Retrieval #Unified Embeddings

2025년 11월 9일

[논문리뷰] Trove: A Flexible Toolkit for Dense Retrieval

Trove는 밀집 검색(Dense Retrieval) 연구 실험을 위한 유연하고 사용하기 쉬운 오픈 소스 툴킷을 제공하여, 유연성과 속도를 희생하지 않으면서 연구 과정을 단순화 하는 것을 목표로 합니다. 특히, 대규모 데이터셋의 효율적인 관리, 유연한 모델링, 쉬운 분산 평가 등 기존 툴킷의 한계를 극복하고자 합니다.

#Review #Dense Retrieval #Retrieval Toolkit #Data Management #Distributed Training #Model Customization #Hard Negative Mining #Hugging Face Integration #Performance Optimization

2025년 11월 9일

[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

기존 비디오 리트리벌 패러다임이 좁은 벤치마크, 제한된 데이터, 단일 태스크 훈련으로 인해 일반화 능력이 저해되는 문제를 해결하는 것입니다. 이 연구는 다차원 진단 평가 를 통해 범용 비디오 임베딩 의 진정한 일반화 능력을 정의하고 달성하는 것을 목표로 합니다.

#Review #Video Retrieval #Multimodal Embedding #Data Synthesis #Curriculum Learning #Zero-shot Generalization #Benchmark Design #MLLM #Video-Text Retrieval

2025년 11월 9일

[논문리뷰] Towards Robust Mathematical Reasoning

기존 수학 벤치마크들의 포화 상태와 단답형 답변 위주의 한계를 극복하기 위해, 논문은 국제 수학 올림피아드(IMO) 수준의 견고한 수학적 추론 능력을 평가하는 새로운 벤치마크 스위트인 IMO-Bench 를 제안합니다.

#Review #Mathematical Reasoning #Large Language Models (LLMs)#AI Benchmarks #International Mathematical Olympiad (IMO)#Proof Verification #Automatic Grading #Robustness

2025년 11월 9일

[논문리뷰] ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use

본 논문은 멀티모달 대규모 언어 모델(MLLM)이 동적 추론, 외부 지식 접근 및 다단계 연산이 필요한 복잡한 작업에서 겪는 한계, 특히 장기적인 VQA 작업 에서의 제한된 전역 계획 과 시각적 맥락 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Agents #Tool-Augmented LLMs #Vision-Guided Reasoning #Long-Horizon Tasks #VQA #Global Planning #Context Preservation #Perceive Tool

2025년 11월 9일

[논문리뷰] The Underappreciated Power of Vision Models for Graph Structural Understanding

본 논문은 기존 Graph Neural Networks(GNNs)의 국소적인 메시지 전달 방식과 인간의 시각적 인식(전역적 구조 우선) 간의 인지적 차이를 해소하고자 합니다.

#Review #Graph Neural Networks #Vision Models #Graph Understanding #Topological Perception #GraphAbstract Benchmark #OOD Generalization #Graph Visualization

2025년 11월 9일

[논문리뷰] TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning

본 연구는 기존 벤치마크들이 OpenAI o3 와 같은 최신 MLLM의 'thinking-with-images' (이미지로 사고하기) 능력, 즉 이미지 조작 도구를 활용한 문제 해결 능력을 충분히 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Agentic Reasoning #Thinking-with-Images #Visual Reasoning Benchmark #Tool Use #Image Manipulation #Fine-tuning

2025년 11월 9일

[논문리뷰] ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

본 논문은 기존 통합 멀티모달 모델(UMM) 평가 방식이 텍스트 및 이미지 이해/생성 능력을 개별적으로 측정하여 모달리티 간 상호 추론 능력 을 간과하는 문제를 제기합니다.

#Review #Multimodal AI #Benchmarking #Cross-Modal Reasoning #Omnimodal Generation #Visual Generation #Verbal Generation #Unified Multimodal Models

2025년 11월 9일

[논문리뷰] PHUMA: Physically-Grounded Humanoid Locomotion Dataset

본 논문은 기존 휴머노이드 모션 데이터셋의 규모, 다양성 및 물리적 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Humanoid Locomotion #Dataset #Motion Imitation #Physics-based Control #Motion Retargeting #Data Curation #Reinforcement Learning #Inverse Kinematics

2025년 11월 9일

[논문리뷰] OpenSIR: Open-Ended Self-Improving Reasoner

논문은 LLM 추론 능력 향상이 인간 주석 데이터 의존성으로 확장성과 성능에 한계가 있음을 지적하며, 이 문제를 해결하고자 합니다.

#Review #Open-Ended Learning #Self-Play #Reinforcement Learning #Large Language Models #Mathematical Reasoning #Problem Generation #Curriculum Learning #Reward Shaping

2025년 11월 9일

[논문리뷰] NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

본 논문은 Vision-Language Models (VLMs)의 실제 환경 내 로봇 내비게이션 능력 을 평가하기 위한 새로운 벤치마크 NaviTrace를 제안합니다.

#Review #Vision-Language Models #Embodied Navigation #VQA Benchmark #Robotic Navigation #Semantic-aware Score #Dynamic Time Warping #Real-world Scenarios

2025년 11월 9일

[논문리뷰] Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement

본 논문은 대규모 언어 모델(LLMs)이 자연어 설명(NLEs)을 생성할 때 내부의 매개변수 지식(Parametric Knowledge, PK) 과 외부의 문맥 지식(Context Knowledge, CK) 을 어떻게 통합하고 상호작용하는지 다단계에 걸쳐 분석하는 것을 목표로 합니다.

#Review #LLMs #Knowledge Interaction #Parametric Knowledge #Contextual Knowledge #Subspace Disentanglement #NLE Generation #Hallucination Detection #Chain-of-Thought

2025년 11월 9일

[논문리뷰] MotionStream: Real-Time Video Generation with Interactive Motion Controls

기존 모션 제어 비디오 생성 모델의 높은 지연 시간(수분 소요) 과 비인과적 처리 문제로 인한 실시간 상호작용 불가능성을 해결하고, 대화형 모션 제어 를 통해 실시간으로 무한 길이의 비디오 스트리밍 생성 을 가능하게 하는 새로운 프레임워크를 제안하는 것입니다.

#Review #Real-Time Video Generation #Motion Control #Diffusion Models #Autoregressive Generation #Self-Forcing #Attention Sink #Streaming Inference #Video Distillation

2025년 11월 9일

[논문리뷰] MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models

본 연구는 Large Reasoning Models (LRMs)에서 발생하는 '추론-답변 불일치(reasoning-answer hit gap)' 문제를 해결하는 것을 목표로 합니다. 이는 모델이 추론 과정에서 올바른 사실을 식별함에도 불구하고 최종 답변에 이를 통합하지 못하여 사실적 정확도가 저하되는 현상을 말합니다.

#Review #Large Reasoning Models #Factuality Alignment #Meta-Reasoning #Kahneman-Tversky Optimization #Chain-of-Thought #Hallucination #Process-Level Alignment

2025년 11월 9일

[논문리뷰] LongCat-Flash-Omni Technical Report

LongCat-Flash-Omni는 560B 파라미터 규모의 최첨단 오픈소스 옴니모달 모델로, 견고한 오프라인 멀티모달 이해와 저지연 실시간 오디오-시각 상호작용 을 통합하는 것을 목표로 합니다.

#Review #Omni-modal AI #Multimodal LLM #Real-time Interaction #Mixture-of-Experts (MoE)#Streaming Inference #Distributed Training #Curriculum Learning #Audio-Visual Perception

2025년 11월 9일

[논문리뷰] How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

본 연구는 고위험 수술 도메인에서 심층적이고 전문화된 인과 지식이 필요한 상황에서, 최첨단 비디오 생성 모델(잠재적 월드 모델 )이 실제 세계를 시뮬레이션하는 능력을 평가하는 것을 목표로 합니다.

#Review #Video Generation #World Models #Surgical AI #Zero-shot Prediction #Expert Evaluation #Plausibility Gap #Medical Simulation

2025년 11월 9일

[논문리뷰] Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph

본 논문은 고정된 컴퓨팅 예산 내에서 대규모 언어 모델(LLM)의 테스트 시간 컴퓨팅 최적 스케일링(Test-Time Scaling, TTS) 을 일반화하고 최적화하는 새로운 문제를 다룹니다.

#Review #Test-Time Scaling #LLMs #Graph Optimization #REINFORCE #Multi-agent Systems #Adaptive Architectures #Compute-optimal Scaling #Probabilistic Graphs

2025년 11월 9일