[논문리뷰] LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models저자들은 로봇 조작 지시문의 핵심 구성 요소인 행동과 객체를 기반으로 43개의 정밀한 변형 유형을 포함하는 LIBERO-Para를 구축하였다. 또한, 모델의 성공 여부뿐만 아니라 원문 지시문과 파라프레이즈 간의 키워드 유사도(SKS_K)와 구조적 유사도(STS_T)를 결합한 PRIDE 메트릭을 제안하여 보다 해석 가능한 견고성 평가를 수행한다 .#Review#Vision-Language-Action (VLA) Models#Paraphrase Robustness#Robotic Manipulation#Diagnostic Benchmark#PRIDE Metric#Object Grounding#Trajectory Divergence2026년 4월 6일댓글 수 로딩 중
[논문리뷰] LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language ModelsarXiv에 게시된 'LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Diffusion Models#Reasoning#Reinforcement Learning#Supervised Finetuning#Visual Question Answering#Image Editing#Object Grounding#Policy Gradient2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video GenerationYu Ning이 arXiv에 게시한 'Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Spatial Reasoning#Visuospatial Intelligence#Diffusion Models#Context-Guided Generation#Scene Navigation#Object Grounding#Out-of-Domain Generalization2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Artemis: Structured Visual Reasoning for Perception Policy LearningPiotr Koniusz이 arXiv에 게시한 'Artemis: Structured Visual Reasoning for Perception Policy Learning' 논문에 대한 자세한 리뷰입니다.#Review#Visual Reasoning#Multimodal Large Language Models (MLLM)#Reinforcement Learning (RL)#Perception Policy Learning#Object Grounding#Object Detection#Structured Output2025년 12월 2일댓글 수 로딩 중
[논문리뷰] VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMsarXiv에 게시된 'VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Object Grounding#Fine-grained Perception#Hybrid Region Encoder#Plug-and-play#Two-stage Training#Visual Reasoning2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and GenerationZhe Lin이 arXiv에 게시한 'Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Masked Diffusion Models#Image Understanding#Image Generation#Image Editing#Object Grounding#ElasticMoT#Self-reflection2025년 9월 25일댓글 수 로딩 중