#Multi-modal Data

1개의 포스트

[논문리뷰] CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning

본 논문은 대규모 시각-언어 모델(LVLM)이 시각 데이터를 통해 도시의 사회경제적 지위를 정확하고 해석 가능하게 예측하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 학습 시 접하지 못한 도시나 지표에 대한 일반화 성능 을 향상시키고, 동시에 설명 가능한 추론 과정 을 제공하고자 합니다.

#Review #Urban Sensing #Socio-Economic Status #Vision-Language Models #Reinforcement Learning #Generalization #Interpretability #Multi-modal Data

2025년 10월 31일