[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward Modeling본 연구는 복잡한 공간 관계가 포함된 텍스트 프롬프트에서 현재 Text-to-Image(T2I) 모델 이 직면하는 한계를 해결하고, 생성된 이미지의 공간적 정확도를 향상시키는 것을 목표로 합니다.#Review#Image Generation#Reward Modeling#Spatial Understanding#Reinforcement Learning#Visual Language Models#Text-to-Image#Preference Learning2026년 3월 1일댓글 수 로딩 중
[논문리뷰] PyVision-RL: Forging Open Agentic Vision Models via RL본 논문은 에이전트형 멀티모달 모델의 강화 학습 시 발생하는 상호작용 붕괴(interaction collapse) 문제를 해결하고, 안정적인 학습을 통해 지속적인 도구 사용과 다중 턴 추론 능력을 유지하는 것을 목표로 합니다. 특히 이미지 및 비디오 이해 태스크를 위한 오픈-웨이트 멀티모달 모델 에 초점을 맞춥니다.#Review#Agentic AI#Multimodal Models#Reinforcement Learning#Dynamic Tooling#Interaction Stability#Video Reasoning#Visual Language Models#Rollout Optimization2026년 2월 24일댓글 수 로딩 중
[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Image Editing#Reward Modeling#Instruction-Guided Editing#Online RL#Visual Language Models#Benchmark#Self-Ensembling2025년 9월 30일댓글 수 로딩 중
[논문리뷰] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search기존 오픈소스 VLM(Vision-Language Model)의 단조로운 추론 패턴과 제한된 상호작용 턴 수로 인해 시행착오적 탐색 이 필요한 어려운 시각 검색 작업을 해결하지 못하는 문제를 다룹니다.#Review#Visual Search#Multi-Turn Reasoning#Reinforcement Learning#Tool-Integrated Agents#Exploratory Reasoning#Data Augmentation#Over-turn Masking#Visual Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] ChartCap: Mitigating Hallucination of Dense Chart Captioning본 논문은 시각 언어 모델(VLMs)이 생성하는 차트 캡션의 환각 현상(hallucination)을 줄이고 정보의 정확성 및 밀도를 높이는 것 을 목표로 합니다. 기존 데이터셋의 외부 정보 포함 및 차트 유형별 핵심 정보 부족 문제를 해결하여, 모델이 차트 이미지로부터 직접 추론 가능한 고품질 캡션을 생성하도록 합니다.#Review#Chart Captioning#Hallucination Mitigation#Dataset Generation#Visual Language Models#Cycle Consistency#Reference-Free Metric#Data Visualization2025년 8월 6일댓글 수 로딩 중