[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion ModelsarXiv에 게시된 'When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Video#Diffusion Transformer#Numerical Alignment#Training-free#Layout-guided Generation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] ViVa: A Video-Generative Value Model for Robot Reinforcement LearningarXiv에 게시된 'ViVa: A Video-Generative Value Model for Robot Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Robot Reinforcement Learning#Video-Generative Model#Value Function#Embodied AI#Future Prediction#Spatiotemporal Priors2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior TracesYunfei Zhang이 arXiv에 게시한 'Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#User Simulation#Human Behavior Modeling#Long-horizon#Cross-scenario#Benchmark2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Structured Distillation of Web Agent Capabilities Enables GeneralizationarXiv에 게시된 'Structured Distillation of Web Agent Capabilities Enables Generalization' 논문에 대한 자세한 리뷰입니다.#Review#Web Agent#Knowledge Distillation#Synthetic Data#Trajectory Synthesis#Agent-as-Annotators#Supervised Fine-Tuning#Generalization2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Structural Graph Probing of Vision-Language ModelsarXiv에 게시된 'Structural Graph Probing of Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Neural Topology#Mechanistic Interpretability#Neuron Correlation#Graph Neural Networks#Causal Intervention2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Small Vision-Language Models are Smart Compressors for Long Video Understanding저자들은 SVLM을 로컬 압축기로 활용하여 긴 비디오를 쿼리 의존적인 메모리 토큰으로 변환하는 Tempo 프레임워크를 제안합니다 . Tempo는 각 세그먼트에서 쿼리와 시각적 정보를 결합한 교차 모달 증류(cross-modal distillation)를 수행하며, ATA 기법을 통해 추론 시점의 토큰 예산(예: 4K/8K)을 엄격히 준수합니다.#Review#Multimodal Large Language Models#Long Video Understanding#Visual Token Compression#Adaptive Token Allocation#Cross-modal Distillation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] SkillClaw: Let Skills Evolve Collectively with Agentic Evolver본 연구는 다중 사용자 환경에서 발생한 대규모 상호작용 궤적을 중앙 집중적으로 수집하여 자율적으로 스킬을 개선하는 SkillClaw 프레임워크를 제안한다. 수집된 궤적은 스킬별로 그룹화되어 Agentic Evolver에 입력되며, 진화 엔진은 이를 바탕으로 스킬의 Refine, Create, Skip 여부를 결정한다.#Review#LLM Agents#Skill Evolution#Multi-user Ecosystem#Collective Learning#Agentic Evolver#Procedural Memory2026년 4월 9일댓글 수 로딩 중
[논문리뷰] SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds본 논문은 실세계의 geometry와 물리적 동역학을 시뮬레이션 내에 정렬하는 SIM1 프레임워크를 제안합니다 . 우선, 3D 스캔을 통해 실제 환경을 metric-accurate한 디지털 twin으로 재구성하고, deformation-stable solver인 AVBD를 도입하여 rigid-soft interaction의 물리적 일관성을 확보합니다 .#Review#Deformable Manipulation#Physics-Aligned Simulation#Real-to-Sim-to-Real#Data Scaling#Diffusion-based Trajectory Generation#Embodied Learning2026년 4월 9일댓글 수 로딩 중
[논문리뷰] RewardFlow: Generate Images by Optimizing What You RewardarXiv에 게시된 'RewardFlow: Generate Images by Optimizing What You Reward' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Flow Matching#Langevin Dynamics#Image Editing#Zero-shot Generation#Multi-reward Guidance#Adaptive Policy2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model CapabilityarXiv에 게시된 'Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability' 논문에 대한 자세한 리뷰입니다.#Review#Supervised Fine-Tuning#Chain-of-Thought#Generalization#Model Capability#Optimization Dynamics#Safety Degradation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language ModelsZhilin Liu이 arXiv에 게시한 'PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Embodied AI#Long-Horizon Planning#3D Open-World Benchmark#Automated Evaluation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics본 연구에서는 Phantom이라 명명된 물리 주입형(Physics-Infused) 비디오 생성 프레임워크를 제안합니다. Phantom은 사전 학습된 비디오 확산 모델인 Wan2.2-TI2V를 기반으로 하며, 이에 병렬적인 물리 동역학 브랜치를 추가하여 latent 공간에서 물리적 상태를 예측합니다.#Review#Video Generation#Physics-Infused#Flow Matching#Latent Dynamics#V-JEPA2#Dual-Branch Architecture2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Personalizing Text-to-Image Generation to Individual TastearXiv에 게시된 'Personalizing Text-to-Image Generation to Individual Taste' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Personalization#Reward Modeling#Human Preference Alignment#Subjective Aesthetics2026년 4월 9일댓글 수 로딩 중
[논문리뷰] POS-ISP: Pipeline Optimization at the Sequence Level for Task-aware ISP본 연구는 ISP 최적화 문제를 단계적 의사결정이 아닌 단일 forward pass를 통한 전역적 시퀀스 예측 문제로 재정의한다. Sequence predictor는 GRU를 통해 이전 모듈의 컨텍스트를 고려하여 전체 모듈 시퀀스를 예측하고, Parameter predictor는 입력 이미지에 특화된 매개변수를 생성한다 .#Review#ISP#Reinforcement Learning#Task-aware#Sequence Optimization#Pipeline Design2026년 4월 9일댓글 수 로딩 중
[논문리뷰] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual TasksXin Chen이 arXiv에 게시한 'OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Gaussian GRPO#Optimal Transport#Multi-task Learning#Visual Reasoning2026년 4월 9일댓글 수 로딩 중
[논문리뷰] OpenSpatial: A Principled Data Engine for Empowering Spatial IntelligencearXiv에 게시된 'OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Intelligence#Data Engine#3D Bounding Boxes#Multimodal Large Language Models#Data Scaling#3D Lifting2026년 4월 9일댓글 수 로딩 중
[논문리뷰] OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering저자들은 시간 순서 재구성(temporal reordering) proxy task를 기반으로 세 가지 모달리티 오케스트레이션 전략(JMI, SMS, CMM)을 제안합니다. 특히, CMM 전략은 클립별로 정보를 마스킹하여 모델이 시각과 청각 정보를 능동적으로 교차 분석하게 함으로써 학습 성능을 극대화합니다 .#Review#Omni-modal Reasoning#Reinforcement Learning#Self-supervised Learning#Jigsaw Proxy Task#Modality Orchestration#Data Filtering2026년 4월 9일댓글 수 로딩 중
[논문리뷰] MolmoWeb: Open Visual Web Agent and Open Data for the Open Web저자들은 Instruction-conditioned visual-language action policy인 MolmoWeb을 제안하며, 이를 학습시키기 위한 MolmoWebMix 데이터셋을 구축하였습니다. MolmoWeb은 Molmo2 아키텍처를 기반으로 하며, 웹 스크린샷과 작업 지시어를 입력받아 즉각적인 브라우저 액션을 출력합니다 .#Review#Web Agents#Multimodal#Vision-Language Models#Open Data#Browser-use#GUI Perception#Instruction-conditioned Policies2026년 4월 9일댓글 수 로딩 중
[논문리뷰] MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style MappingarXiv에 게시된 'MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping' 논문에 대한 자세한 리뷰입니다.#Review#MegaStyle#Style Transfer#Data Curation#Diffusion Transformer#Contrastive Learning2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Lighting-grounded Video Generation with Renderer-based Agent Reasoning본 논문은 3D scene proxy를 통해 조명을 제어하는 LiVER 프레임워크를 제안한다. 먼저 Renderer-based Agent가 텍스트 명령을 분석하여 3D 구조를 생성하고, 이를 2D 렌더 패스(diffuse, rough/glossy GGX)로 변환하여 물리적 단서를 추출한다 .#Review#Video Generation#Controllable Generation#Lighting-grounded#3D Scene Proxy#Diffusion Models#Physical Realism#Renderer-based Agent2026년 4월 9일댓글 수 로딩 중