[논문리뷰] Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction본 논문은 비디오 내에서 극심한 시점 변화(egocentric-to-exocentric 및 exocentric-to-egocentric) 에도 불구하고 객체 수준의 시각적 대응(object-level visual correspondence)을 확립하는 문제를 해결하는 것을 목표로 합니다.#Review#Cross-View Correspondence#Object Segmentation#Cycle-Consistency#Test-Time Training#Vision Foundation Models#Self-Supervision#Egocentric-Exocentric2026년 2월 23일댓글 수 로딩 중
[논문리뷰] When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding본 논문은 기존 Video-LLM의 한계인 불명확한 시간 인코딩, 프레임 수준의 낮은 연속성, 그리고 관심 엔티티에 대한 언어-비전 정렬 불일치를 극복하는 것을 목표로 합니다. 특히 긴 비디오에서 발생하는 이벤트의 정밀한 시간적 위치 파악과 엔티티 수준의 견고한 정렬을 통해 비디오 이해 능력을 향상시키고자 합니다.#Review#Video-LLM#Diffusion Model#Temporal Grounding#Object Segmentation#Long Video Understanding#Multimodal AI#Video Question Answering2025년 8월 22일댓글 수 로딩 중
[논문리뷰] SCas4D: Structural Cascaded Optimization for Boosting Persistent 4D Novel View Synthesis본 연구는 동적 3D 장면 모델링에서 정확한 변형을 포착하면서도 계산 효율성을 유지하는 데 따른 어려움을 해결합니다.#Review#4D Novel View Synthesis#Dynamic Scenes#3D Gaussian Splatting#Cascaded Optimization#Deformation Modeling#Point Tracking#Object Segmentation2025년 10월 17일댓글 수 로딩 중