본문으로 건너뛰기

최신 포스트

[논문리뷰] Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents

댓글 수 로딩 중

[논문리뷰] SPATIALGEN: Layout-guided 3D Indoor Scene Generation

댓글 수 로딩 중

[논문리뷰] RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

댓글 수 로딩 중

[논문리뷰] RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

댓글 수 로딩 중

[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

댓글 수 로딩 중

[논문리뷰] Lynx: Towards High-Fidelity Personalized Video Generation

댓글 수 로딩 중

[논문리뷰] Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

댓글 수 로딩 중

[논문리뷰] Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems

댓글 수 로딩 중

[논문리뷰] Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding

댓글 수 로딩 중

[논문리뷰] Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

댓글 수 로딩 중

[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

댓글 수 로딩 중

[논문리뷰] RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

댓글 수 로딩 중

[논문리뷰] RecoWorld: Building Simulated Environments for Agentic Recommender Systems

댓글 수 로딩 중