[논문리뷰] EditVerse: Unifying Image and Video Editing and Generation with In-Context LearningTianyu Wang이 arXiv에 게시한 'EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Model#In-Context Learning#Image and Video Editing#Video Generation#Full Self-Attention#Rotary Positional Embedding#Cross-Modal Knowledge Transfer2025년 9월 25일댓글 수 로딩 중
[논문리뷰] Advancing Speech Understanding in Speech-Aware Language Models with GRPOAvihu이 arXiv에 게시한 'Advancing Speech Understanding in Speech-Aware Language Models with GRPO' 논문에 대한 자세한 리뷰입니다.#Review#Speech-Aware Language Models#SALLMs#GRPO#Reinforcement Learning#Speech Understanding#Spoken Question Answering#Automatic Speech Translation#BLEU Metric2025년 9월 25일댓글 수 로딩 중
[논문리뷰] Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing ApplicationsGenady Beryozkin이 arXiv에 게시한 'Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications' 논문에 대한 자세한 리뷰입니다.#Review#Remote Sensing#Zero-Shot Learning#Multimodal Models#Multi-spectral Imagery#Gemini 2.5#Prompt Engineering#Land Cover Classification#Pseudo-Image2025년 9월 24일댓글 수 로딩 중
[논문리뷰] What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoTAnthony Hartshorn이 arXiv에 게시한 'What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT' 논문에 대한 자세한 리뷰입니다.#Review#Chain-of-Thought#Reasoning Effectiveness#Large Reasoning Models#Failed-Step Fraction#Test-time Scaling#Reasoning Graph#Model Evaluation2025년 9월 24일댓글 수 로딩 중
[논문리뷰] VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned PredictionHaoxiao Wang이 arXiv에 게시한 'VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction' 논문에 대한 자세한 리뷰입니다.#Review#3D Gaussian Splatting#Novel View Synthesis#Voxel-Aligned Prediction#Feed-Forward Reconstruction#Multi-View Consistency#Scene Representation#Computer Vision2025년 9월 24일댓글 수 로딩 중
[논문리뷰] VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary ReconstructionSo Fukuda이 arXiv에 게시한 'VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Video Understanding#Geospatial Reasoning#Temporal Reasoning#Travel Itinerary Reconstruction#Benchmark#Agent System#VLOG2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning on Pre-Training DataEvander Yang이 arXiv에 게시한 'Reinforcement Learning on Pre-Training Data' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Pre-training#Large Language Models#Self-supervised Learning#Scaling Laws#Next-segment Reasoning#Reward Modeling2025년 9월 24일댓글 수 로딩 중
[논문리뷰] OpenGVL - Benchmarking Visual Temporal Progress for Data CurationViktor Petrenko이 arXiv에 게시한 'OpenGVL - Benchmarking Visual Temporal Progress for Data Curation' 논문에 대한 자세한 리뷰입니다.#Review#Robotics Data Curation#Visual Temporal Progress#Generative Value Learning (GVL)#Vision-Language Models (VLMs)#Benchmark#Task Progress Prediction#Value-Order Correlation (VOC)2025년 9월 24일댓글 수 로딩 중
[논문리뷰] MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training RecipeWenshuo Ma이 arXiv에 게시한 'MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe' 논문에 대한 자세한 리뷰입니다.#Review#MLLM Efficiency#Multimodal Transformer#3D-Resampler#Document AI#Hybrid Reinforcement Learning#Video Understanding#Efficient Inference2025년 9월 24일댓글 수 로딩 중
[논문리뷰] MAPO: Mixed Advantage Policy OptimizationXuankun Rong이 arXiv에 게시한 'MAPO: Mixed Advantage Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Foundation Models#Policy Optimization#Advantage Function#Trajectory Certainty#Multimodal Reasoning#GRPO2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-DistillationYifeng Jiang이 arXiv에 게시한 'Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Generative AI#3D Scene Reconstruction#Video Diffusion Models#Self-Distillation#3D Gaussian Splatting#Dynamic 4D Generation#Monocular Input2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Large Language Models Discriminate Against Speakers of German DialectsKatharina von der Wense이 arXiv에 게시한 'Large Language Models Discriminate Against Speakers of German Dialects' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Bias#German Dialects#Sociolinguistics#Stereotypes#Implicit Association Test#Decision Making2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and GenerationJianbin Zheng이 arXiv에 게시한 'Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Acceleration Framework#Speculative Decoding#Diffusion Distillation#Unified Models#Text-to-Image Generation#Image Editing#Computational Efficiency2025년 9월 24일댓글 수 로딩 중
[논문리뷰] HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View SynthesisDan Xu이 arXiv에 게시한 'HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View Synthesis' 논문에 대한 자세한 리뷰입니다.#Review#Novel View Synthesis#3D Gaussian Splatting (3DGS)#Neural Radiance Fields (NeRF)#Memory Efficiency#High-Quality Rendering#Hybrid Representation#Real-time Rendering2025년 9월 24일댓글 수 로딩 중
[논문리뷰] GeoSVR: Taming Sparse Voxels for Geometrically Accurate Surface ReconstructionJin Zheng이 arXiv에 게시한 'GeoSVR: Taming Sparse Voxels for Geometrically Accurate Surface Reconstruction' 논문에 대한 자세한 리뷰입니다.#Review#Surface Reconstruction#Sparse Voxels#Geometric Accuracy#Neural Radiance Fields#3D Gaussian Splatting#Monocular Depth#Voxel Uncertainty2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Do You Need Proprioceptive States in Visuomotor Policies?Yushen Liang이 arXiv에 게시한 'Do You Need Proprioceptive States in Visuomotor Policies?' 논문에 대한 자세한 리뷰입니다.#Review#Visuomotor Policies#Spatial Generalization#Imitation Learning#Proprioception#State-free Policies#Robot Manipulation#End-Effector Control#Data Efficiency2025년 9월 24일댓글 수 로딩 중
[논문리뷰] CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow MatchingRui Qian이 arXiv에 게시한 'CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow Matching' 논문에 대한 자세한 리뷰입니다.#Review#Flow Matching#Conditional Generative Models#Reparameterization#Mode Collapse#Image Generation#Latent Space Alignment#Diffusion Models2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCRZeina Aldallal이 arXiv에 게시한 'Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR' 논문에 대한 자세한 리뷰입니다.#Review#Arabic OCR#Vision-Language Model#Fine-tuning#Document Understanding#Markdown Conversion#Benchmark2025년 9월 24일댓글 수 로딩 중
[논문리뷰] When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMsAnand Mishra이 arXiv에 게시한 'When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs' 논문에 대한 자세한 리뷰입니다.#Review#VQA#Small VLMs#Large VLMs#Knowledge Transfer#Pseudo-labeling#Label-Free Learning#Model Parity Alignment#Computational Efficiency2025년 9월 23일댓글 수 로딩 중
[논문리뷰] VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion ModelsSunghyun Cho이 arXiv에 게시한 'VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#3D Scene Generation#Video Diffusion#Image Diffusion#Generative Models#Computer Graphics#Temporal Consistency#Sparse Anchor Views2025년 9월 23일댓글 수 로딩 중