#Generalist Model

2개의 포스트

[논문리뷰] Count Anything

본 연구는 객체 카운팅 분야가 특정 도메인(군중, 차량, 세포 등)에 편향된 데이터셋과 모델로 인해 파편화되어 있다는 점을 핵심 문제로 정의한다. 기존 연구들은 일반화 성능이 낮고, 개별 도메인에 종속된 카운팅 모델은 다양한 스케일과 밀도 분포를 가진 현실 세계의 객체를 효과적으로 처리하지 못한다.

#Review #Object Counting #Generalist Model #Text-guided #Cross-domain #Instance-grounded #Dual-granularity

2026년 5월 31일

[논문리뷰] OneThinker: All-in-one Reasoning Model for Image and Video

기존 MLLM(Multimodal Large Language Models)이 단일 태스크나 단일 모달리티(이미지 또는 비디오)에 국한되는 한계를 넘어, 이미지와 비디오 이해를 아우르는 다양한 시각 태스크를 동시에 처리할 수 있는 범용적인 추론 모델 인 'All-in-one multimodal reasoning generalist' 를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Reinforcement Learning #Visual Reasoning #Generalist Model #Image Understanding #Video Understanding #Multitask Learning #EMA-GRPO

2025년 12월 3일