본문으로 건너뛰기

Review

[논문리뷰] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

댓글 수 로딩 중

[논문리뷰] TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

댓글 수 로딩 중

[논문리뷰] Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

댓글 수 로딩 중

[논문리뷰] Step-Audio-R1 Technical Report

댓글 수 로딩 중

[논문리뷰] Scaling Spatial Intelligence with Multimodal Foundation Models

댓글 수 로딩 중

[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

댓글 수 로딩 중

[논문리뷰] SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

댓글 수 로딩 중

[논문리뷰] SAM 3D: 3Dfy Anything in Images

댓글 수 로딩 중

[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical Report

댓글 수 로딩 중

[논문리뷰] First Frame Is the Place to Go for Video Content Customization

댓글 수 로딩 중

[논문리뷰] What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity

댓글 수 로딩 중

[논문리뷰] VisPlay: Self-Evolving Vision-Language Models from Images

댓글 수 로딩 중