#Cross-Modal Consistency

2개의 포스트

[논문리뷰] Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs

본 논문은 MLLM이 시각 및 언어 모달리티에 걸쳐 동일한 의미를 가진 정보에 대해 일관된 추론 능력 을 보이는지 체계적으로 평가하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Cross-Modal Consistency #Reasoning Inconsistency #OCR Performance #Modality Gap #Benchmarking #Render Equivalence

2025년 12월 9일

[논문리뷰] MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model

본 연구는 현미경 이미지 분석을 위한 대규모 고품질 멀티모달 질의응답(VQA) 데이터셋의 부족 이라는 문제점을 해결하여, 멀티모달 대규모 언어 모델(MLLM)의 현미경 과학 추론 능력을 향상시키는 것을 목표로 합니다. 기존 데이터셋의 제한된 규모와 낮은 난이도로 인한 MLLM 학습의 한계를 극복하고자 합니다.

#Review #Microscopy VQA #Multimodal LLM #Weak Supervision #Graph Neural Networks #Dataset Generation #Biomedical Imaging #Scientific Reasoning #Cross-Modal Consistency

2025년 11월 17일