[논문리뷰] LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models저자들은 로봇 조작 지시문의 핵심 구성 요소인 행동과 객체를 기반으로 43개의 정밀한 변형 유형을 포함하는 LIBERO-Para를 구축하였다. 또한, 모델의 성공 여부뿐만 아니라 원문 지시문과 파라프레이즈 간의 키워드 유사도(SKS_K)와 구조적 유사도(STS_T)를 결합한 PRIDE 메트릭을 제안하여 보다 해석 가능한 견고성 평가를 수행한다 .#Review#Vision-Language-Action (VLA) Models#Paraphrase Robustness#Robotic Manipulation#Diagnostic Benchmark#PRIDE Metric#Object Grounding#Trajectory Divergence2026년 4월 6일댓글 수 로딩 중
[논문리뷰] LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models본 논문은 기존 확산 언어 모델(dLLMs) 기반 추론 시스템이 겪는 태스크 특이성, RL 학습 불안정성, 훈련 신호 부족 등의 문제를 해결하고자 합니다.#Review#Multimodal Diffusion Models#Reasoning#Reinforcement Learning#Supervised Finetuning#Visual Question Answering#Image Editing#Object Grounding#Policy Gradient2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation본 논문은 비디오 생성 모델이 시각 데이터(비디오 컨텍스트) 만을 사용하여 인간의 인지와 유사한 시공간 지능(Visuospatial Intelligence) 을 발휘할 수 있는지 탐구하는 것을 목표로 합니다.#Review#Video Generation#Spatial Reasoning#Visuospatial Intelligence#Diffusion Models#Context-Guided Generation#Scene Navigation#Object Grounding#Out-of-Domain Generalization2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Artemis: Structured Visual Reasoning for Perception Policy Learning기존 멀티모달 대규모 언어 모델(MLLM)의 시각 지각 정책 학습에서 언어 기반의 추론이 공간적/객체 중심 추론이 필요한 시각 태스크에서 성능 저하를 야기하는 문제를 해결하고자 합니다.#Review#Visual Reasoning#Multimodal Large Language Models (MLLM)#Reinforcement Learning (RL)#Perception Policy Learning#Object Grounding#Object Detection#Structured Output2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation본 논문은 기존 멀티모달 Masked Diffusion Model (MDM)의 한계를 극복하고, 이미지 이해, 객체 접지, 이미지 편집, 고해상도(1024px) 텍스트-투-이미지 생성 등 광범위한 멀티모달 태스크를 단일 프레임워크 내에서 처리할 수 있는 통합 MDM 인 Lavida-O를 제안하는 것을 목표로 합니다.#Review#Multimodal AI#Masked Diffusion Models#Image Understanding#Image Generation#Image Editing#Object Grounding#ElasticMoT#Self-reflection2025년 9월 25일댓글 수 로딩 중
[논문리뷰] VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs본 논문은 기존 VLM(Vision-Language Models)이 고수준 장면 이해에는 뛰어나지만, 정밀한 공간적 지역화가 필요한 미세 조정 지각(fine-grained perception) 작업에서 부족한 문제를 해결하고자 합니다.#Review#Vision-Language Models#Object Grounding#Fine-grained Perception#Hybrid Region Encoder#Plug-and-play#Two-stage Training#Visual Reasoning2025년 10월 2일댓글 수 로딩 중