#Visual Language Models

5개의 포스트

[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward Modeling

본 연구는 복잡한 공간 관계가 포함된 텍스트 프롬프트에서 현재 Text-to-Image(T2I) 모델 이 직면하는 한계를 해결하고, 생성된 이미지의 공간적 정확도를 향상시키는 것을 목표로 합니다.

#Review #Image Generation #Reward Modeling #Spatial Understanding #Reinforcement Learning #Visual Language Models #Text-to-Image #Preference Learning

2026년 3월 1일

[논문리뷰] PyVision-RL: Forging Open Agentic Vision Models via RL

본 논문은 에이전트형 멀티모달 모델의 강화 학습 시 발생하는 상호작용 붕괴(interaction collapse) 문제를 해결하고, 안정적인 학습을 통해 지속적인 도구 사용과 다중 턴 추론 능력을 유지하는 것을 목표로 합니다. 특히 이미지 및 비디오 이해 태스크를 위한 오픈-웨이트 멀티모달 모델 에 초점을 맞춥니다.

#Review #Agentic AI #Multimodal Models #Reinforcement Learning #Dynamic Tooling #Interaction Stability #Video Reasoning #Visual Language Models #Rollout Optimization

2026년 2월 24일

[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reward Modeling #Instruction-Guided Editing #Online RL #Visual Language Models #Benchmark #Self-Ensembling

2025년 9월 30일

[논문리뷰] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

기존 오픈소스 VLM(Vision-Language Model)의 단조로운 추론 패턴과 제한된 상호작용 턴 수로 인해 시행착오적 탐색 이 필요한 어려운 시각 검색 작업을 해결하지 못하는 문제를 다룹니다.

#Review #Visual Search #Multi-Turn Reasoning #Reinforcement Learning #Tool-Integrated Agents #Exploratory Reasoning #Data Augmentation #Over-turn Masking #Visual Language Models

2025년 9월 10일

[논문리뷰] ChartCap: Mitigating Hallucination of Dense Chart Captioning

본 논문은 시각 언어 모델(VLMs)이 생성하는 차트 캡션의 환각 현상(hallucination)을 줄이고 정보의 정확성 및 밀도를 높이는 것 을 목표로 합니다. 기존 데이터셋의 외부 정보 포함 및 차트 유형별 핵심 정보 부족 문제를 해결하여, 모델이 차트 이미지로부터 직접 추론 가능한 고품질 캡션을 생성하도록 합니다.

#Review #Chart Captioning #Hallucination Mitigation #Dataset Generation #Visual Language Models #Cycle Consistency #Reference-Free Metric #Data Visualization

2025년 8월 6일