[논문리뷰] RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models본 논문은 현대의 VLA 모델들이 학습 과정에서 진정한 의미적 이해보다는 시각적 혹은 지시어-행동 간의 통계적 Shortcut에 의존하는 문제를 해결하고자 한다 . 저자들은 기존의 로봇 학습 벤치마크들이 단순한 형태의 명령어를 사용하여 모델의 진정한 의미론적 추론 능력을 검증하지 못하고 있다고 지적한다.#Review#Vision-Language-Action Models#Embodied AI#Semantic Grounding#Action Prediction#Robotics Benchmark#Instruction-following2026년 6월 1일댓글 수 로딩 중
[논문리뷰] From Pixels to Concepts: Do Segmentation Models Understand What They Segment?본 논문은 최신 promptable segmentation 모델들이 시각적 살점(salient cues)에 과도하게 의존하여 semantically invalid한 프롬프트에도 정확한 마스크를 생성하는 '개념적 기반(concept-faithful grounding)'의 결여 문제를 해결하고자 합니다 .#Review#Promptable Segmentation#Counterfactual Evaluation#Semantic Grounding#Visual Hallucination#Multimodal Reasoning#Open-Vocabulary Segmentation2026년 5월 13일댓글 수 로딩 중
[논문리뷰] PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding기존 비디오 생성 모델들이 시각적 품질은 뛰어나지만, 명시적인 물리적 제어 가능성과 현실성이 부족하다는 문제를 해결하는 것을 목표로 합니다. 단일 이미지로부터 객체의 물리적 특성을 추론하고, 이를 기반으로 물리적으로 정확하며 역동적인 비디오를 생성하는 새로운 프레임워크를 제안합니다.#Review#Video Generation#Physics Simulation#Controllable AI#Part-Aware#Semantic Grounding#Material Properties#Image-to-Video#Diffusion Models2025년 11월 25일댓글 수 로딩 중
[논문리뷰] MATRIX: Mask Track Alignment for Interaction-aware Video Generation본 논문은 비디오 Diffusion Transformers (DiTs)가 다중 인스턴스 또는 주체-객체 상호작용을 어떻게 내부적으로 표현하는지 분석하고, 상호작용 인지 비디오 생성 능력을 향상시키는 것을 목표로 합니다.#Review#Video Generation#Diffusion Transformers#Human-Object Interaction#Attention Alignment#Mask Tracking#Semantic Grounding#Semantic Propagation#Text-to-Video2025년 10월 9일댓글 수 로딩 중