[논문리뷰] RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time본 논문은 시각 생성 모델의 보상 모델이 인간의 복합적인 판단을 단일 스칼라 점수로 압축함으로써 발생하는 불투명성과 성능 저하 문제를 해결하고자 합니다.#Review#RationalRewards#Preference-Anchored Rationalization#Visual Generation#Reasoning-based Reward Model#Reinforcement Learning#Prompt Tuning2026년 4월 15일댓글 수 로딩 중
[논문리뷰] GENIUS: Generative Fluid Intelligence Evaluation Suite본 연구는 기존 통합 멀티모달 모델(UMM) 평가 벤치마크가 결정화된 지능(Crystallized Intelligence) 에 치우쳐 있음을 지적하며, 시각 생성 분야에서 생성 유동 지능(Generative Fluid Intelligence, GFI) 을 엄격하게 평가하는 것을 목표로 합니다.#Review#Generative Fluid Intelligence#UMM Evaluation#Visual Generation#Ad-hoc Reasoning#Contextual Adaptation#Benchmark#Attention Intervention2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models본 논문은 기존 AI 시스템이 언어적/추상적 영역에서 강세를 보이지만, 풍부한 표현과 사전 지식, 특히 명시적인 시각적 세계 모델링의 부족으로 인해 물리적/공간적 지능 분야에서는 인간에 비해 뒤처지는 문제를 해결하고자 합니다.#Review#Multimodal AI#World Models#Visual Generation#Chain-of-Thought (CoT)#Multimodal Reasoning#Unified Multimodal Models#Spatial-Physical Reasoning2026년 1월 27일댓글 수 로딩 중
[논문리뷰] Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation본 논문은 시각 콘텐츠 생성 과정에서 발생하는 장기적인 구성, 다중 엔티티 관계 및 미묘한 지시사항 준수와 같은 문제점을 해결하기 위해, 텍스트 기반 추론(think)을 시각 생성(generate) 과정에 실시간으로 상호 연동(interleaving) 하는 프레임워크인 Thinking-while-Generating (TWIG) 를 제안합니다.#Review#Visual Generation#Textual Reasoning#Interleaving#Large Multimodal Models (LMMs)#Chain-of-Thought (CoT)#Zero-shot Learning#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)2025년 11월 20일댓글 수 로딩 중
[논문리뷰] ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation본 논문은 기존 통합 멀티모달 모델(UMM) 평가 방식이 텍스트 및 이미지 이해/생성 능력을 개별적으로 측정하여 모달리티 간 상호 추론 능력 을 간과하는 문제를 제기합니다.#Review#Multimodal AI#Benchmarking#Cross-Modal Reasoning#Omnimodal Generation#Visual Generation#Verbal Generation#Unified Multimodal Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RewardDance: Reward Scaling in Visual Generation시각 생성 모델의 RM(Reward Model) 스케일링 패러다임이 기존 CLIP 기반 RM의 아키텍처 및 입력 제약, Bradley-Terry 손실과 VLM(Vision-Language Model)의 다음 토큰 예측 메커니즘 간의 불일치, 그리고 보상 해킹(Reward Hacking) 문제로 인해 제대로 탐구되지 못하는 한계를 해결하는 것이 목표입니다.#Review#Reward Model#Visual Generation#RLHF#VLM#Reward Scaling#Reward Hacking#Generative Paradigm#Context Scaling#Text-to-Image#Text-to-Video2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning in Vision: A Survey본 연구는 강화 학습(RL)과 시각 지능의 교차점에서 발전한 에이전트의 현황을 체계적으로 종합합니다.#Review#Reinforcement Learning (RL)#Computer Vision (CV)#Multimodal Large Language Models (MLLMs)#Visual Generation#Vision-Language-Action (VLA) Models#Policy Optimization#Reward Modeling2025년 8월 12일댓글 수 로딩 중