[논문리뷰] Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment이 [arXiv]에 게시한 'Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment' 논문에 대한 자세한 리뷰입니다.2025년 12월 4일
[논문리뷰] CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image GenerationYi Yao이 [arXiv]에 게시한 'CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation' 논문에 대한 자세한 리뷰입니다.2025년 12월 4일
[논문리뷰] AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption PairsTosho Hirasawa이 [arXiv]에 게시한 'AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs' 논문에 대한 자세한 리뷰입니다.2025년 12월 4일
[논문리뷰] Adversarial Confusion Attack: Disrupting Multimodal Large Language ModelsArtur Janicki이 [arXiv]에 게시한 'Adversarial Confusion Attack: Disrupting Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 12월 4일
[논문리뷰] YingVideo-MV: Music-Driven Multi-Stage Video GenerationChaofan Ding이 [arXiv]에 게시한 'YingVideo-MV: Music-Driven Multi-Stage Video Generation' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning이 [arXiv]에 게시한 'WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation이 [arXiv]에 게시한 'ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video GenerationYu Ning이 [arXiv]에 게시한 'Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table RecognitionZichen Wen이 [arXiv]에 게시한 'TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models이 [arXiv]에 게시한 'The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead이 [arXiv]에 게시한 'SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch이 [arXiv]에 게시한 'Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social WorldsXuhong He이 [arXiv]에 게시한 'SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] SimScale: Learning to Drive via Real-World Simulation at Scale이 [arXiv]에 게시한 'SimScale: Learning to Drive via Real-World Simulation at Scale' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization이 [arXiv]에 게시한 'Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] PAI-Bench: A Comprehensive Benchmark For Physical AIHumphrey Shi이 [arXiv]에 게시한 'PAI-Bench: A Comprehensive Benchmark For Physical AI' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] MultiShotMaster: A Controllable Multi-Shot Video Generation Framework이 [arXiv]에 게시한 'MultiShotMaster: A Controllable Multi-Shot Video Generation Framework' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] Mixture of Horizons in Action ChunkingZelong Sun이 [arXiv]에 게시한 'Mixture of Horizons in Action Chunking' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory이 [arXiv]에 게시한 'MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일
[논문리뷰] Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models이 [arXiv]에 게시한 'Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일