#Visual Generation

9개의 포스트

[논문리뷰] Focusing on What Matters: Saliency-Harnessing Accurate Routing for Diffusion MoE

본 연구는 기존 Diffusion MoE 프레임워크에서 발생하는 불균형한 계산 자원 배분 문제를 해결하고자 합니다.

#Review #Diffusion Models #Mixture-of-Experts #Saliency-Aware Routing #Post-Training #Visual Generation #Latent Features

2026년 6월 29일

[논문리뷰] Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

본 논문은 UMMs에서 수행된 텍스트 기반 지식 편집(Knowledge Editing)이 이미지 생성 과정으로 적절히 전이되는지 검증하고자 합니다 . 기존의 텍스트 도메인 지식 편집 기법들은 텍스트 출력에서는 높은 성공률을 보이지만, 동일한 수정이 시각적 생성 결과로까지 일관되게 이어지는지는 불명확합니다.

#Review #Unified Multimodal Models #Knowledge Editing #Cross-Modal Transfer #Visual Generation #UniKE #Reasoning-Augmented

2026년 6월 3일

[논문리뷰] RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

본 논문은 시각 생성 모델의 보상 모델이 인간의 복합적인 판단을 단일 스칼라 점수로 압축함으로써 발생하는 불투명성과 성능 저하 문제를 해결하고자 합니다.

#Review #RationalRewards #Preference-Anchored Rationalization #Visual Generation #Reasoning-based Reward Model #Reinforcement Learning #Prompt Tuning

2026년 4월 15일

[논문리뷰] GENIUS: Generative Fluid Intelligence Evaluation Suite

본 연구는 기존 통합 멀티모달 모델(UMM) 평가 벤치마크가 결정화된 지능(Crystallized Intelligence) 에 치우쳐 있음을 지적하며, 시각 생성 분야에서 생성 유동 지능(Generative Fluid Intelligence, GFI) 을 엄격하게 평가하는 것을 목표로 합니다.

#Review #Generative Fluid Intelligence #UMM Evaluation #Visual Generation #Ad-hoc Reasoning #Contextual Adaptation #Benchmark #Attention Intervention

2026년 2월 11일

[논문리뷰] Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

본 논문은 기존 AI 시스템이 언어적/추상적 영역에서 강세를 보이지만, 풍부한 표현과 사전 지식, 특히 명시적인 시각적 세계 모델링의 부족으로 인해 물리적/공간적 지능 분야에서는 인간에 비해 뒤처지는 문제를 해결하고자 합니다.

#Review #Multimodal AI #World Models #Visual Generation #Chain-of-Thought (CoT)#Multimodal Reasoning #Unified Multimodal Models #Spatial-Physical Reasoning

2026년 1월 27일

[논문리뷰] Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

본 논문은 시각 콘텐츠 생성 과정에서 발생하는 장기적인 구성, 다중 엔티티 관계 및 미묘한 지시사항 준수와 같은 문제점을 해결하기 위해, 텍스트 기반 추론(think)을 시각 생성(generate) 과정에 실시간으로 상호 연동(interleaving) 하는 프레임워크인 Thinking-while-Generating (TWIG) 를 제안합니다.

#Review #Visual Generation #Textual Reasoning #Interleaving #Large Multimodal Models (LMMs)#Chain-of-Thought (CoT)#Zero-shot Learning #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)

2025년 11월 20일

[논문리뷰] ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

본 논문은 기존 통합 멀티모달 모델(UMM) 평가 방식이 텍스트 및 이미지 이해/생성 능력을 개별적으로 측정하여 모달리티 간 상호 추론 능력 을 간과하는 문제를 제기합니다.

#Review #Multimodal AI #Benchmarking #Cross-Modal Reasoning #Omnimodal Generation #Visual Generation #Verbal Generation #Unified Multimodal Models

2025년 11월 9일

[논문리뷰] RewardDance: Reward Scaling in Visual Generation

시각 생성 모델의 RM(Reward Model) 스케일링 패러다임이 기존 CLIP 기반 RM의 아키텍처 및 입력 제약, Bradley-Terry 손실과 VLM(Vision-Language Model)의 다음 토큰 예측 메커니즘 간의 불일치, 그리고 보상 해킹(Reward Hacking) 문제로 인해 제대로 탐구되지 못하는 한계를 해결하는 것이 목표입니다.

#Review #Reward Model #Visual Generation #RLHF #VLM #Reward Scaling #Reward Hacking #Generative Paradigm #Context Scaling #Text-to-Image #Text-to-Video

2025년 9월 11일

[논문리뷰] Reinforcement Learning in Vision: A Survey

본 연구는 강화 학습(RL)과 시각 지능의 교차점에서 발전한 에이전트의 현황을 체계적으로 종합합니다.

#Review #Reinforcement Learning (RL)#Computer Vision (CV)#Multimodal Large Language Models (MLLMs)#Visual Generation #Vision-Language-Action (VLA) Models #Policy Optimization #Reward Modeling

2025년 8월 12일