본문으로 건너뛰기

#Multimodal Models

18개의 포스트

[논문리뷰] ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes

댓글 수 로딩 중

[논문리뷰] CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models

댓글 수 로딩 중

[논문리뷰] PyVision-RL: Forging Open Agentic Vision Models via RL

댓글 수 로딩 중

[논문리뷰] Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

댓글 수 로딩 중

[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report

댓글 수 로딩 중

[논문리뷰] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

댓글 수 로딩 중

[논문리뷰] Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models

댓글 수 로딩 중

[논문리뷰] DeepEyesV2: Toward Agentic Multimodal Model

댓글 수 로딩 중

[논문리뷰] Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications

댓글 수 로딩 중

[논문리뷰] SpotEdit: Evaluating Visually-Guided Image Editing Methods

댓글 수 로딩 중

[논문리뷰] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

댓글 수 로딩 중

[논문리뷰] Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

댓글 수 로딩 중

[논문리뷰] VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes

댓글 수 로딩 중