[논문리뷰] SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead본 논문은 대규모 VLA 모델의 높은 추론 지연 시간과 메모리 사용량 문제를 해결하고, 경량 VLA 모델의 제한된 시공간 추론 능력을 극복하는 것을 목표로 합니다. 특히, 컴팩트한 VLA 모델에 4D 시공간 정보 를 통합하여 효율성을 유지하면서도 강력한 장면 이해 및 액션 계획 능력을 부여하고자 합니다.#Review#Vision-Language-Action (VLA)#Lightweight Models#Spatiotemporal Dynamics#4D Features#Masked Autoencoding#Robotics#Edge AI2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch기존 멀티모달 에이전트 시스템의 한계, 즉 이미지 조작과 웹 검색의 분리, 값비싼 강화 학습(RL) 의존성, 실제 도구 실행과 괴리된 계획 수립 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal AI#Agentic Models#Interleaved Reasoning#Image Manipulation#DeepSearch#Supervised Fine-tuning (SFT)#Tool-Augmented LLM2025년 12월 2일댓글 수 로딩 중
[논문리뷰] SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds본 논문은 기존 시뮬레이터들의 한계(제한된 환경, 비현실적인 물리/사회 규칙, LLM/VLM 에이전트 미지원)를 극복하고, 현실적이고 개방적인 환경에서 자율 에이전트의 개발 및 평가를 위한 SIMWORLD 시뮬레이터를 제시합니다.#Review#Autonomous Agents#Realistic Simulator#Unreal Engine 5#LLM/VLM Agents#Procedural Generation#Multi-Agent Systems#Physical Simulation#Social Interaction2025년 12월 2일댓글 수 로딩 중
[논문리뷰] SimScale: Learning to Drive via Real-World Simulation at Scale자율주행 시스템의 안전에 필수적인 안전-위험(safety-critical) 및 분포 외(Out-of-Distribution, OOD) 시나리오에 대한 실제 데이터 부족 문제를 해결하고, 제한된 실제 데이터 환경에서 대규모 시뮬레이션 데이터를 활용 하여 엔드투엔드(E2E) 플래너의 강건성 및 일반화 성능 을 체계적으로 향상시키는 방법을 제시하는 것이 목표입니다.#Review#Autonomous Driving#Simulation#Neural Rendering#3D Gaussian Splatting#Sim-to-Real#Data Scaling#End-to-End Planning#Pseudo-Expert2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization본 논문은 Vision-Language Models (VLMs)에서 일반화 가능한 시각적 추론 능력을 습득하는 데 다양한 Chain-of-Thought (CoT) 설계 방식 이 어떻게 영향을 미치는지 체계적으로 분석하는 것을 목표로 합니다.#Review#Chain-of-Thought (CoT)#Vision-Language Models (VLMs)#Visual Reasoning#Generalization#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Grounding CoT#Maze Solving2025년 12월 2일댓글 수 로딩 중
[논문리뷰] PAI-Bench: A Comprehensive Benchmark For Physical AI현재 다중 모달 대규모 언어 모델( MLLM )과 비디오 생성 모델( VGM )이 실제 물리적 역학을 인지하고 예측하는 능력을 충분히 지원하는지 이해하는 데 한계가 있습니다.#Review#Physical AI#Benchmark#Video Generation#Conditional Video Generation#Video Understanding#Multimodal LLMs#Physical Plausibility#Embodied Reasoning2025년 12월 2일댓글 수 로딩 중
[논문리뷰] MultiShotMaster: A Controllable Multi-Shot Video Generation Framework본 논문은 단일 샷(single-shot) 비디오 생성 기술의 한계를 넘어, 유연한 샷 배열, 일관된 내러티브, 그리고 텍스트 프롬프트 이상의 제어 가능성을 갖춘 다중 샷 비디오 생성 프레임워크 를 개발하는 것을 목표로 합니다.#Review#Multi-Shot Video Generation#Controllable Video Generation#Diffusion Models#RoPE#Spatiotemporal Consistency#Reference Injection#Data Curation Framework2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Mixture of Horizons in Action Chunking본 논문은 Vision-Language-Action (VLA) 모델 에서 고정된 액션 청크 길이(horizon) 가 유발하는 근본적인 한계점을 해결하고자 합니다.#Review#Vision-Language-Action Models#Action Chunking#Robotic Manipulation#Multi-horizon Planning#Transformer Architecture#Gated Fusion#Dynamic Inference2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models본 연구는 Masked Diffusion Language Models (MDLMs) 의 컨텍스트 이해 능력을 체계적으로 조사하고, locality bias 및 마스크 토큰 사용이 성능에 미치는 영향을 파악하는 것을 목표로 합니다.#Review#Diffusion Language Models#Masked Diffusion Language Models#Context Comprehension#Locality Bias#Mask Tokens#Fine-tuning#Mask-agnostic Loss#Long-context Processing2025년 12월 2일댓글 수 로딩 중
[논문리뷰] MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory이 논문은 동적이고 이전에 본 적 없는 환경에서 강건한 제로샷 시각 내비게이션(zero-shot visual navigation) 을 달성하는 것을 목표로 합니다.#Review#Visual Navigation#Dual-Scale Framework#Sparse Spatial Memory Graph#Memory-Guided Planning#Geometry-Enhanced Control#Zero-Shot Navigation#Embodied AI2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Guided Self-Evolving LLMs with Minimal Human Supervision본 논문은 기존의 자율 진화(self-evolving) 언어 모델(LLM)이 겪는 불안정성, 성능 정체, 개념 표류(concept drift) 및 다양성 붕괴(diversity collapse) 문제를 해결하고자 합니다.#Review#Self-Evolving LLMs#Self-Play#Reinforcement Learning#Curriculum Learning#Few-shot Learning#Human Supervision#Concept Drift#Diversity Collapse2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Glance: Accelerating Diffusion Models with 1 Sample본 논문은 이미지 생성 확산 모델의 높은 계산 비용과 많은 추론 단계를 해결하고자 합니다. 특히, 모델의 재훈련 비용과 일반화 성능 저하 없이, 단일 샘플만으로도 효율적인 가속화와 강력한 일반화 능력을 갖춘 경량화된 솔루션을 제공하는 것을 목표로 합니다.#Review#Diffusion Models#Acceleration#Distillation#LoRA#Few-shot Learning#Phase-aware#Image Generation#Computational Efficiency2025년 12월 2일댓글 수 로딩 중
[논문리뷰] GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning본 연구는 GUI(Graphical User Interface) 에이전트가 실제 환경에서 복잡한 화면 탐색 과제를 수행하는 데 필요한 포괄적인 환경 정보를 얻기 어렵다는 문제를 해결합니다.#Review#GUI Agents#Screen Navigation#Reinforcement Learning#Multi-Turn RL#Simulation#Supervised Fine-tuning#Generalization2025년 12월 2일댓글 수 로딩 중
[논문리뷰] DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation본 논문은 기존의 카메라 제어 비디오 생성 모델들이 겪는 장면 이해 및 기하학적 인식 부족 문제를 해결하여, 지정된 카메라 궤적에 더욱 충실하고 기하학적으로 일관된 비디오를 생성하는 것을 목표로 합니다. 특히 깊이(depth) 정보를 효과적으로 통합하여 카메라 제어 비디오 생성의 정확도를 높이는 데 중점을 둡니다.#Review#Diffusion Models#Video Generation#Camera Control#Depth Estimation#Dual-Branch Architecture#Geometric Awareness#Semantic Alignment#Multi-modal Fusion2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation본 연구는 오디오-비디오 공동 노이즈 제거 훈련이 비디오 품질에만 중점을 둘 때도 비디오 생성 성능을 향상시키는 근본적인 질문에 답하는 것을 목표로 합니다.#Review#Video Generation#Audio-Video Multimodal#Joint Denoising#Diffusion Models#Transformer Architecture#World Models#Physical Commonsense#Multimodal Training2025년 12월 2일댓글 수 로딩 중
[논문리뷰] DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA ModelsVision-Language-Action (VLA) 모델이 분포 변화 및 복잡한 다단계 로봇 조작 태스크에서 성능 저하를 겪는 문제를 해결하고자 합니다. 이는 학습된 표현이 태스크 관련 의미를 견고하게 포착하지 못하기 때문이며, 본 논문은 기하학적 정규화 를 통해 VLA 모델의 견고성을 향상시키는 것을 목표로 합니다.#Review#VLA Models#Flow Matching#Robotics#Robustness#Distribution Shift#Wasserstein Distance#Geometric Regularization#Representation Learning2025년 12월 2일댓글 수 로딩 중
[논문리뷰] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models본 논문은 오픈 소스 대규모 언어 모델(LLM)과 상업용 LLM 간의 성능 격차를 줄이고자 DeepSeek-V3.2 를 소개합니다.#Review#Large Language Models#Sparse Attention#Reinforcement Learning#Agentic AI#Tool Use#Open-source LLM#DeepSeek2025년 12월 2일댓글 수 로딩 중
[논문리뷰] CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization본 논문은 에이전트 시각-언어 모델(VLMs)이 높은 최종 답변 정확도에도 불구하고 종종 '불성실한' 시각적 추론을 수행하는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Agentic Reasoning#Tool Use#Reinforcement Learning#Faithfulness Evaluation#Policy Optimization#Visual Search#Code Generation2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click기존 Video Scene Graph Generation (VSGG) 및 Panoptic Video Scene Graph (PVSG) 시스템의 폐쇄적인 특성과, SAM/SAM2 와 같은 프롬프트 기반 분할 모델이 의미론적 또는 관계적 추론 기능을 결여하고 있다는 한계를 해결하고자 합니다.#Review#Panoptic Video Scene Graph Generation#Interactive AI#User Guidance#Promptable Segmentation#Video Understanding#Relational Reasoning#Human-in-the-Loop2025년 12월 2일댓글 수 로딩 중
[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning본 연구의 핵심 목표는 반정밀 일반 행렬 곱셈(HGEMM) CUDA 커널 의 수동 최적화가 어려운 문제를 해결하고, cuBLAS 와 같은 기존의 고도로 최적화된 라이브러리보다 뛰어난 성능을 달성하는 자동화된 최적화 시스템인 CUDA-L2 를 개발하는 것입니다.#Review#CUDA#Matrix Multiplication#Reinforcement Learning#LLMs#Kernel Optimization#HGEMM#GPU Performance#cuBLAS2025년 12월 2일댓글 수 로딩 중