본문으로 건너뛰기

#Generative Models

91개의 포스트

[논문리뷰] ChangeFlow -- Latent Rectified Flow for Change Detection in Remote Sensing

댓글 수 로딩 중

[논문리뷰] Emergent Social Intelligence Risks in Generative Multi-Agent Systems

댓글 수 로딩 중

[논문리뷰] FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

댓글 수 로딩 중

[논문리뷰] Scale Space Diffusion

댓글 수 로딩 중

[논문리뷰] Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities

댓글 수 로딩 중

[논문리뷰] Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

댓글 수 로딩 중

[논문리뷰] How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

댓글 수 로딩 중

[논문리뷰] Revisiting Diffusion Model Predictions Through Dimensionality

댓글 수 로딩 중

[논문리뷰] Advancing Open-source World Models

댓글 수 로딩 중

[논문리뷰] GenCtrl -- A Formal Controllability Toolkit for Generative Models

댓글 수 로딩 중

[논문리뷰] MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

댓글 수 로딩 중

[논문리뷰] The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

댓글 수 로딩 중

[논문리뷰] Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

댓글 수 로딩 중

[논문리뷰] Robust and Calibrated Detection of Authentic Multimedia Content

댓글 수 로딩 중

[논문리뷰] TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models

댓글 수 로딩 중

[논문리뷰] Generative Neural Video Compression via Video Diffusion Prior

댓글 수 로딩 중

[논문리뷰] Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

댓글 수 로딩 중

[논문리뷰] SAM 3D: 3Dfy Anything in Images

댓글 수 로딩 중

[논문리뷰] DIMO: Diverse 3D Motion Generation for Arbitrary Objects

댓글 수 로딩 중

[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

댓글 수 로딩 중

[논문리뷰] UniREditBench: A Unified Reasoning-based Image Editing Benchmark

댓글 수 로딩 중

[논문리뷰] Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals

댓글 수 로딩 중

[논문리뷰] AToken: A Unified Tokenizer for Vision

댓글 수 로딩 중

[논문리뷰] 2D Gaussian Splatting with Semantic Alignment for Image Inpainting

댓글 수 로딩 중

[논문리뷰] 3D and 4D World Modeling: A Survey

댓글 수 로딩 중

[논문리뷰] LuxDiT: Lighting Estimation with Video Diffusion Transformer

댓글 수 로딩 중

[논문리뷰] Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views

댓글 수 로딩 중

[논문리뷰] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

댓글 수 로딩 중

[논문리뷰] Mixture of Contexts for Long Video Generation

댓글 수 로딩 중

[논문리뷰] FakeParts: a New Family of AI-Generated DeepFakes

댓글 수 로딩 중

[논문리뷰] ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models

댓글 수 로딩 중

[논문리뷰] Semantic IDs for Joint Generative Search and Recommendation

댓글 수 로딩 중

[논문리뷰] Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models

댓글 수 로딩 중

[논문리뷰] Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

댓글 수 로딩 중

[논문리뷰] SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

댓글 수 로딩 중

[논문리뷰] OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

댓글 수 로딩 중

[논문리뷰] EnzyControl: Adding Functional and Substrate-Specific Control for Enzyme Backbone Generation

댓글 수 로딩 중

[논문리뷰] Track, Inpaint, Resplat: Subject-driven 3D and 4D Generation with Progressive Texture Infilling

댓글 수 로딩 중

[논문리뷰] FARMER: Flow AutoRegressive Transformer over Pixels

댓글 수 로딩 중

[논문리뷰] Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

댓글 수 로딩 중

[논문리뷰] DiffusionLane: Diffusion Model for Lane Detection

댓글 수 로딩 중

[논문리뷰] Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

댓글 수 로딩 중

[논문리뷰] Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization

댓글 수 로딩 중

[논문리뷰] What If : Understanding Motion Through Sparse Interactions

댓글 수 로딩 중

[논문리뷰] Temporal Alignment Guidance: On-Manifold Sampling in Diffusion Models

댓글 수 로딩 중

[논문리뷰] Heptapod: Language Modeling on Visual Signals

댓글 수 로딩 중

[논문리뷰] G^2RPO: Granular GRPO for Precise Reward in Flow Models

댓글 수 로딩 중

[논문리뷰] Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models

댓글 수 로딩 중

[논문리뷰] Drax: Speech Recognition with Discrete Flow Matching

댓글 수 로딩 중

[논문리뷰] Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

댓글 수 로딩 중

[논문리뷰] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

댓글 수 로딩 중

[논문리뷰] AlphaFlow: Understanding and Improving MeanFlow Models

댓글 수 로딩 중

[논문리뷰] Attention Sinks in Diffusion Language Models

댓글 수 로딩 중