#Pretext Tasks

2개의 포스트

[논문리뷰] VideoSSR: Video Self-Supervised Reinforcement Learning

본 연구는 Multimodal Large Language Models (MLLMs)의 비디오 이해 능력을 향상시키기 위해, 기존 비디오 데이터셋의 높은 주석 비용, 복잡성 부족, 그리고 주석 과정에서의 편향성이라는 한계를 극복하는 것을 목표로 합니다.

#Review #Video Understanding #Self-Supervised Learning #Reinforcement Learning #MLLMs #Pretext Tasks #Verifiable Rewards #Data Generation #Temporal Grounding

2025년 11월 11일

[논문리뷰] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

대규모 시각-언어 모델(LVLM)의 공간 이해 능력 부족 이라는 한계를 해결하는 것을 목표로 합니다.

#Review #Self-supervised learning #Reinforcement Learning #Spatial Understanding #Vision-Language Models #Pretext Tasks #RGB-D Images #Spatial Reasoning

2025년 11월 9일