[논문리뷰] Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer기존의 Motion Generation 연구는 주로 Kinematic Control에 강점을 보이는 Continuous Diffusion Models 또는 Semantic Conditioning에 효과적인 Discrete Token-based Generators의 두 가지 패러다임을 따랐습니다.#Review#Motion Generation#Diffusion Models#Discrete Tokens#Kinematic Control#Semantic Conditioning#Motion Tokenizer#Perception-Planning-Control2026년 3월 19일댓글 수 로딩 중
[논문리뷰] 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation ModelImmersive VR/AR, virtual production, next-generation e-commerce 등 다양한 분야에서 customized subject의 dynamic하고 view-consistent한 비디오 생성에 대한 수요가 증가하고 있습니다.#Review#3D-aware video generation#subject-driven customization#multi-view conditioning#video diffusion models#LoRA#temporal dynamics#3Dapter#3DreamBooth2026년 3월 19일댓글 수 로딩 중
[논문리뷰] When AI Navigates the Fog of War기존 Large Language Models (LLMs)의 geopolitical forecasting 연구들은 data leakage 문제로 인해 true out-of-distribution reasoning 능력을 정확히 평가하기 어렵다는 한계가 있었습니다.#Review2026년 3월 18일댓글 수 로딩 중
[논문리뷰] VideoAtlas: Navigating Long-Form Video in Logarithmic Compute장편 비디오(long-form video)를 이해하는 것은 방대한 시간적 공간 내에서 희소하고 태스크 관련 증거(task-relevant evidence)를 찾아내는 어려운 문제입니다. 기존의 비디오-언어 모델(VLM) 접근 방식은 두 가지 주요 도전 과제에 직면합니다.#Review2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Video-CoE: Reinforcing Video Event Prediction via Chain of Events비디오 태스크에 대한 MLLM 애플리케이션의 발전에도 불구하고, VEP 는 상대적으로 미개척 상태로 남아있습니다.#Review#Video Event Prediction (VEP)#Multimodal Large Language Models (MLLMs)#Chain of Events (CoE)#Logical Reasoning#Visual Grounding#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Unified Spatio-Temporal Token Scoring for Efficient Video VLMsVideo VLM은 방대한 수의 프레임을 인코딩하고, 각 프레임이 Vision Transformer (ViT)에 의해 수백 개의 Patch Token으로 분해되면서 막대한 계산 비용을 발생시킵니다.#Review#Token Pruning#Video-Language Models (VLMs)#Computational Efficiency#Spatio-Temporal Scoring#Vision Transformers (ViT)#Large Language Models (LLM)#End-to-End Training2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models최근 MLLMs 는 비디오-기반 Supervised Fine-tuning (Video-SFT) 을 통해 시각적 이해 능력을 크게 발전시켜왔습니다. 그러나 Video-SFT 가 시각적 능력의 미세한 진화, 특히 공간적 이해와 시간적 이해 사이의 균형에 미치는 영향은 아직 제대로 연구되지 않았습니다.#Review#Multimodal Large Language Models (MLLMs)#Video-SFT#Temporal Trap#Spatial Understanding#Temporal Budget#Hybrid-Frame Strategy#Negative Transfer2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Stereo World Model: Camera-Guided Stereo Video Generation기존의 generative world model은 주로 monocular video representation을 사용하며, 이는 implicit depth, ambiguous scale, 그리고 long-horizon camera trajectory에서 누적되는 3D error와 같은 근본적인 기하학적 한계를 가집니다.#Review2026년 3월 18일댓글 수 로딩 중
[논문리뷰] RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference최근 Large Language Models (LLMs)는 자연어 처리 분야를 혁신했지만, FP16 포맷의 Llama-2-13B 모델이 26GB 의 memory를 요구하는 등 막대한 memory requirement로 인해 consumer GPU나 edge device에 배포하는 데 어려움을 겪는 Memory Wall 문제가 존재합니다.#Review#Mixed-Precision Quantization#Reinforcement Learning#Post-Training Quantization#Large Language Models#Policy Transfer#Scale Folding#GGUF#On-Device Inference2026년 3월 18일댓글 수 로딩 중
[논문리뷰] MosaicMem: Hybrid Spatial Memory for Controllable Video World Models비디오 diffusion 모델은 단순한 plausible clip 생성에서 카메라 모션, revisits, 그리고 intervention 하에서 일관성을 유지하는 world simulator로 발전하고 있습니다.#Review#Spatial Memory#World Models#Video Diffusion Models#Hybrid Memory#Controllable Video Generation#Long-horizon Consistency#Patch-and-Compose2026년 3월 18일댓글 수 로딩 중
[논문리뷰] MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the WildLarge language model (LLM) agent 는 복잡한 multi-step task 에서 강력한 성능을 보여왔지만, 실제 배포 환경에서 사용되는 agent 는 한 번 훈련되면 user 의 요구사항 변화에 관계없이 고정된 상태로 제공됩니다.#Review#LLM agents#continual learning#meta-learning#skill-driven adaptation#policy optimization#reinforcement learning#online adaptation2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action ModelsVision-Language-Action (VLA) 모델은 로봇 조작에서 유망한 Paradigm으로 부상했지만, 신뢰할 수 있는 Action Prediction은 시각적 관찰과 언어 지침을 정확하게 해석하고 통합하는 데 크게 의존합니다.#Review2026년 3월 18일댓글 수 로딩 중
[논문리뷰] LoST: Level of Semantics Tokenization for 3D Shapes최근 autoregressive (AR) 모델이 3D generation의 강력한 패러다임으로 부상하고 있지만, 3D shape에 대한 최적의 tokenization 방법은 여전히 미해결 과제입니다.#Review#3D Shape Tokenization#Semantic Salience#Autoregressive Generation#Relational Inter-Distance Alignment#Diffusion Models#Triplane2026년 3월 18일댓글 수 로딩 중
[논문리뷰] LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition기존 generative models , 특히 Diffusion Models (DM) 은 고품질 이미지를 생성하는 데 탁월하지만, 결과물을 단일 flat image artifact 로 생성하여 전문 디자인 워크플로우에서 요구되는 개별 요소에 대한 fine-grained control 을 제공하지 못하는 한계가 있습니다.#Review2026년 3월 18일댓글 수 로딩 중
[논문리뷰] GigaWorld-Policy: An Efficient Action-Centered World--Action Model기존 Vision-Language-Action (VLA) 모델 은 강력한 성능을 보였지만, 슈퍼비전 희소성(sparsity) 이라는 주요 문제에 직면해 있습니다.#Review2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Efficient Training-Free Multi-Token Prediction via Embedding-Space ProbingLLM은 Next-token Generation을 위해 훈련되므로, GPU Parallelism을 충분히 활용하지 못하는 문제가 있습니다.#Review2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Efficient Exploration at Scale오늘날 대규모 언어 모델(LLM)은 방대한 데이터를 학습하며 발전했지만, LLM의 능력을 인간의 선호도에 맞춰 정렬하는 데 필요한 고품질의 informative한 데이터를 효율적으로 수집하는 것은 여전히 중요한 과제입니다.#Review#RLHF#Data Efficiency#Active Exploration#Epistemic Neural Network#Information-Directed Sampling#Scaling Laws#Large Language Models#Online Learning2026년 3월 18일댓글 수 로딩 중
[논문리뷰] ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models최근 Vision-Language Models (VLMs)는 Embodied Domain에서의 공간 인지 능력을 향상시키기 위한 상당한 진전을 이루었지만, 기존의 평가 방식에는 여러 한계가 존재합니다.#Review2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting최근 Vision-Language-Action (VLA) model의 발전은 large-scale multi-robot dataset을 통해 robot policy를 pretrain하는 데 큰 진전을 보였습니다.#Review#Offline Reinforcement Learning#Vision-Language-Action Models#Data Reweighting#Posterior-Transition Reweighting#Cross-Embodiment Transfer#Robot Learning2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Complementary Reinforcement LearningReinforcement Learning (RL)은 Large Language Models (LLM) 기반 agent의 agentic capabilities를 향상시키는 데 강력한 패러다임으로 부상했지만, sparse outcome feedback과 agent가 episode 전반의 prior experience를 활용하지 못하는 문제로 인해 낮은 sample efficiency라는 한계에 직면해 있다.#Review2026년 3월 18일댓글 수 로딩 중