본문으로 건너뛰기

#Multi-modal Generation

4개의 포스트

[논문리뷰] MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

댓글 수 로딩 중

[논문리뷰] SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

댓글 수 로딩 중

[논문리뷰] MultiRef: Controllable Image Generation with Multiple Visual References

댓글 수 로딩 중

[논문리뷰] OmniNWM: Omniscient Driving Navigation World Models

댓글 수 로딩 중