[논문리뷰] Count Anything본 연구는 객체 카운팅 분야가 특정 도메인(군중, 차량, 세포 등)에 편향된 데이터셋과 모델로 인해 파편화되어 있다는 점을 핵심 문제로 정의한다. 기존 연구들은 일반화 성능이 낮고, 개별 도메인에 종속된 카운팅 모델은 다양한 스케일과 밀도 분포를 가진 현실 세계의 객체를 효과적으로 처리하지 못한다.#Review#Object Counting#Generalist Model#Text-guided#Cross-domain#Instance-grounded#Dual-granularity2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Visual Representation Alignment for Multimodal Large Language Models본 논문은 시각적 지시 튜닝으로 훈련된 다중 모달 대규모 언어 모델(MLLM) 이 객체 카운팅이나 공간 추론과 같은 시각 중심 작업에서 제한적인 성능을 보이는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Visual Representation Alignment#Foundation Models#Regularization#Fine-grained Visual Understanding#Spatial Reasoning#Object Counting#Vision-Language Models2025년 9월 10일댓글 수 로딩 중