본문으로 건너뛰기

#MLLM

26개의 포스트

[논문리뷰] MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

댓글 수 로딩 중

[논문리뷰] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

댓글 수 로딩 중

[논문리뷰] Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

댓글 수 로딩 중

[논문리뷰] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

댓글 수 로딩 중

[논문리뷰] Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

댓글 수 로딩 중

[논문리뷰] Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

댓글 수 로딩 중

[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

댓글 수 로딩 중

[논문리뷰] Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation

댓글 수 로딩 중

[논문리뷰] UI-Venus Technical Report: Building High-performance UI Agents with RFT

댓글 수 로딩 중

[논문리뷰] PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

댓글 수 로딩 중

[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to km

댓글 수 로딩 중

[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for Videos

댓글 수 로딩 중