[논문리뷰] ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes본 논문은 현대의 멀티모달 모델들이 이미지를 코드로 변환하는 능력을 평가할 때 발생하는 벤치마크 오염과 고정된 데이터셋의 한계를 해결하기 위해 ShapeCodeBench를 제안합니다. 기존 연구들은 결정론적 실행이나 정밀한 난이도 제어가 부족하여 모델의 실패 원인을 명확히 진단하기 어렵다는 문제가 있었습니다.#Review#Perception-to-Program Reconstruction#Benchmark#Synthetic Data#Renewable Evaluation#Multimodal Models#DSL2026년 5월 13일댓글 수 로딩 중
[논문리뷰] CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models본 논문은 실세계의 이미지 훼손(blur, noise 등) 상황에서 Unified Multimodal Models가 생성 능력을 보유하고 있음에도 불구하고, 이를 활용하지 못하는 기능적 단절(functional disconnect) 문제를 해결한다.#Review#Multimodal Models#Image Degradation#Latent Representation Bridge#Interleaved GRPO#Robust Understanding2026년 4월 6일댓글 수 로딩 중
[논문리뷰] PyVision-RL: Forging Open Agentic Vision Models via RL본 논문은 에이전트형 멀티모달 모델의 강화 학습 시 발생하는 상호작용 붕괴(interaction collapse) 문제를 해결하고, 안정적인 학습을 통해 지속적인 도구 사용과 다중 턴 추론 능력을 유지하는 것을 목표로 합니다. 특히 이미지 및 비디오 이해 태스크를 위한 오픈-웨이트 멀티모달 모델 에 초점을 맞춥니다.#Review#Agentic AI#Multimodal Models#Reinforcement Learning#Dynamic Tooling#Interaction Stability#Video Reasoning#Visual Language Models#Rollout Optimization2026년 2월 24일댓글 수 로딩 중
[논문리뷰] OmniOCR: Generalist OCR for Ethnic Minority Languages대부분의 OCR 시스템이 잘 알려진 스크립트에 집중되어 있어, 복잡한 문자 체계와 희소한 데이터를 가진 소수 민족 언어(Ethnic Minority Languages) 의 OCR은 zero-shot 환경에서 일반화가 어렵습니다.#Review#OCR#Ethnic Minority Languages#Low-Resource#Dynamic LoRA#Parameter-Efficient Fine-Tuning#Multimodal Models#Sparsity Regularization2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models멀티모달 모델에서 생성 능력과 이해 능력 향상이 서로 상충되는 '최적화 딜레마'를 해결하는 것을 목표로 합니다. 생성과 이해가 경쟁적 목표가 아닌 시너지를 발휘하도록 하여, 강력한 생성 성능과 개선된 이해 능력을 동시에 달성하는 통합 프레임워크를 제시합니다.#Review#Multimodal Models#Generative AI#Understanding#Reason-Reflect-Refine (R3)#Reinforcement Learning (RL)#Text-to-Image Generation#Optimization Dilemma#Image Editing2026년 2월 17일댓글 수 로딩 중
[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report본 논문은 텍스트 지시 기반 이미지 편집(instruction-based image editing) 분야에서 CNN 의존성을 넘어선 새로운 접근 방식 을 제시하며, 데이터 큐레이션, 모델 아키텍처, 훈련 방법론 및 평가 설계의 체계적인 최적화를 통해 최고 수준의 성능 달성을 목표로 합니다.#Review#Image Editing#Diffusion Transformer#Instruction-based Editing#Data Curation#Reinforcement Learning#Multimodal Models#REDEdit-Bench#Generative AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks본 논문은 통합 멀티모달 모델(UMMs)이 일상생활과 밀접한 컴퓨터 사용 계획 태스크(planning-oriented computer-use tasks)를 얼마나 잘 지원하는지 평가하는 것을 목표로 합니다.#Review#Multimodal Models#Image Generation#Image Editing#Benchmark#Computer-Use Tasks#Planning#Evaluation Metrics2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing본 논문은 In-Context Image Generation and Editing (ICGE) 태스크에서 사용자의 의도를 정확하게 이해하고 충실하게 실행하는 데 필요한 정확한 이해 능력과 생성 능력 간의 격차 를 해소하는 것을 목표로 합니다.#Review#In-Context Image Generation#Image Editing#Multimodal Models#Chain-of-Thought#Structured Reasoning#Reinforcement Learning#Alignment#Diffusion Models2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models본 논문은 Masked Diffusion Models (MDMs)의 주요 비효율성, 즉 KV 캐싱 미지원 과 불필요한 마스크 토큰 처리 로 인한 느린 추론 속도 문제를 해결하고자 합니다. 특히, 멀티모달 태스크 전반에서 성능 저하 없이 효율성을 크게 향상시키는 새로운 모델링 프레임워크 를 제안하는 것이 목표입니다.#Review#Discrete Diffusion Models#Multimodal Models#Sparse Parameterization#KV Caching#Token Truncation#Image Generation#Image Editing#Visual Reasoning2025년 12월 16일댓글 수 로딩 중
[논문리뷰] VQ-VA World: Towards High-Quality Visual Question-Visual Answering본 논문은 시각적 질문에 대한 시각적 답변(VQ-VA) 능력, 즉 이미지를 통해 질문에 응답하는 기능을 오픈 소스 모델에도 도입하는 것을 목표로 합니다.#Review#Visual Question Answering (VQA)#Image Generation#Data-centric AI#Agentic Pipeline#Multimodal Models#Web-scale Data#Benchmark#LightFusion2025년 11월 25일댓글 수 로딩 중
[논문리뷰] DeepEyesV2: Toward Agentic Multimodal Model본 논문은 텍스트와 이미지를 단순히 이해하는 것을 넘어, 코드 실행 환경 및 웹 검색 과 같은 외부 도구를 능동적으로 호출하고 이러한 도구 작업을 추론 과정에 원활하게 통합할 수 있는 Agentic 멀티모달 모델 을 구축하는 것을 목표로 합니다.#Review#Agentic AI#Multimodal Models#Tool Use#Reinforcement Learning#Supervised Fine-tuning#Multimodal Reasoning#Web Search#Code Execution2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications본 논문은 RGB 전용 이미지로 훈련된 범용 대규모 멀티모달 모델(LMM) 이 원격 감지 분야에서 널리 사용되는 다중 스펙트럼(multi-spectral) 입력 을 추가 훈련 없이 Zero-Shot 방식으로 이해하고 활용 할 수 있도록 하는 새로운 접근 방식을 제안합니다.#Review#Remote Sensing#Zero-Shot Learning#Multimodal Models#Multi-spectral Imagery#Gemini 2.5#Prompt Engineering#Land Cover Classification#Pseudo-Image2025년 9월 24일댓글 수 로딩 중
[논문리뷰] SpotEdit: Evaluating Visually-Guided Image Editing Methods이 논문은 기존 벤치마크의 단순성과 실제 편집 과제에 대한 낮은 대표성이라는 한계를 극복하기 위해, 시각적으로 안내되는 이미지 편집(Visually-Guided Image Editing) 모델을 체계적이고 세밀하게 평가하기 위한 포괄적인 벤치마크인 SpotEdit 을 소개합니다.#Review#Visually-Guided Image Editing#Multimodal Models#Benchmark#Hallucination#Diffusion Models#Autoregressive Models#Evaluation Metrics2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation본 논문은 GPT-4o 로 생성된 합성 이미지 데이터를 활용하여 오픈소스 이미지 생성 모델이 겪는 성능 격차를 해소하는 것을 목표로 합니다.#Review#Synthetic Data#Image Generation#GPT-4o#Multimodal Models#Instruction Following#Surreal Image Generation#Dataset#Benchmarking2025년 8월 14일댓글 수 로딩 중
[논문리뷰] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation기존 비디오 생성 모델들이 복잡한 다이내믹스와 인과적으로 일관된 결과를 생성하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 시각적 상태 전이와 시간 경과에 따른 결과의 논리적 일관성 부족을 개선하기 위해 대규모 멀티모달 모델의 추론 능력을 비디오 생성에 통합하고자 합니다.#Review#Video Generation#Chain-of-Thought#Multimodal Models#Reasoning#Inference-Time Tuning#Sparse Supervision#Diffusion Models#Keyframe Generation2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing본 논문은 대규모, 고품질, 공개적으로 접근 가능한 텍스트 기반 이미지 편집 데이터셋의 부족으로 인해 제한되었던 연구 발전을 해소하는 것을 목표로 합니다. 실제 이미지를 기반으로 한 포괄적이고 다양한 데이터셋을 제공하여 차세대 텍스트 기반 이미지 편집 모델의 훈련 및 벤치마킹을 위한 견고한 기반을 구축하고자 합니다.#Review#Text-Guided Image Editing#Large-Scale Dataset#Multimodal Models#Dataset Curation#Quality Control#Prompt Engineering#Preference Learning#Multi-Turn Editing2025년 10월 23일댓글 수 로딩 중
[논문리뷰] From Charts to Code: A Hierarchical Benchmark for Multimodal Models기존 차트-코드(chart-to-code) 벤치마크가 단순한 재현 작업에 치중하여 대규모 멀티모달 모델(LMM)의 실제 적용 능력과의 격차를 보였습니다.#Review#Chart-to-Code#Multimodal Models#Hierarchical Benchmark#Chart Understanding#Code Generation#Evaluation Metrics#Benchmarking2025년 10월 23일댓글 수 로딩 중
[논문리뷰] VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes현재 시각 언어 모델(VLM) 벤치마크가 밀집된 고해상도 장면 에서의 시각적 이해 능력을 과대평가하고 있다는 문제 인식을 바탕으로, 모델의 세밀한 시각적 이해 능력 과 복잡한 추론 능력 을 정확하게 평가할 수 있는 새로운 VQA 벤치마크를 제시하는 것이 목표입니다.#Review#Visual Question Answering#Multimodal Models#Dense Scenes#Fine-Grained Perception#Benchmark#Error Analysis#Counting#OCR2025년 10월 1일댓글 수 로딩 중