[논문리뷰] Rethinking Token-Level Policy Optimization for Multimodal Chain-of-ThoughtMultimodal Chain-of-Thought (CoT) 추론은 Large Vision-Language Models (LVLMs)가 시각 정보와 다단계 추론을 통합하는 데 필수적이다.#Review#Multimodal Chain-of-Thought#Reinforcement Learning#Token-Level Optimization#Visual Similarity#Entropy2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Relational Visual Similarity본 연구는 기존 이미지 유사성 모델들이 시각적 속성(perceptual attribute)에만 집중하여, 인간이 인지하는 추상적이고 관계적인 시각 유사성(relational visual similarity)을 포착하지 못하는 한계를 해결하고자 합니다.#Review#Relational Similarity#Visual Similarity#Vision-Language Models#Anonymous Captioning#Image Retrieval#Analogical Reasoning#Dataset Curation2025년 12월 8일댓글 수 로딩 중