[논문리뷰] VideoSSR: Video Self-Supervised Reinforcement Learning본 연구는 Multimodal Large Language Models (MLLMs)의 비디오 이해 능력을 향상시키기 위해, 기존 비디오 데이터셋의 높은 주석 비용, 복잡성 부족, 그리고 주석 과정에서의 편향성이라는 한계를 극복하는 것을 목표로 합니다.#Review#Video Understanding#Self-Supervised Learning#Reinforcement Learning#MLLMs#Pretext Tasks#Verifiable Rewards#Data Generation#Temporal Grounding2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning대규모 시각-언어 모델(LVLM)의 공간 이해 능력 부족 이라는 한계를 해결하는 것을 목표로 합니다.#Review#Self-supervised learning#Reinforcement Learning#Spatial Understanding#Vision-Language Models#Pretext Tasks#RGB-D Images#Spatial Reasoning2025년 11월 9일댓글 수 로딩 중