최신 포스트

[논문리뷰] From Foundation to Application: Improving VLA Models in Practice

본 논문은 기존의 VLA foundation model들이 실험실 환경의 벤치마크에서는 뛰어난 성능을 보이지만, 실제 로봇 환경의 다양한 하드웨어 구성과 복잡한 작업 조건에서는 여전히 한계가 있다는 문제 의식에서 출발합니다.

#Review #Vision-Language-Action (VLA)#Mixture-of-Experts (MoE)#Embodiment Generalization #Dual-Query Distillation #Robotic Manipulation #Spatiotemporal Reasoning

2026년 7월 7일

[논문리뷰] Flex-Forcing: Towards a Unified Autoregressive and Bidirectional Video Diffusion Model

기존의 비디오 생성 모델은 Bidirectional diffusion과 Autoregressive 모델이라는 두 개의 분리된 패러다임으로 나뉘어 있어, 각각의 장단점이 뚜렷하다는 한계가 있습니다.

#Review #Video Diffusion Models #Autoregressive Generation #Bidirectional Generation #Flexible Chunking #Denoising Timesteps #KV Caching #Any-order Editing

2026년 7월 7일

[논문리뷰] DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation

본 논문은 기존 Speculative Decoding 방식이 가진 병렬 생성의 품질 저하와 비효율적인 검증 문제를 해결하기 위해 DSpark를 제안한다. 기존의 Parallel drafter는 토큰 간 의존성을 모델링하지 못해 뒤로 갈수록 수용률이 떨어지는 Suffix Decay 문제를 겪는다.

#Review #Speculative Decoding #Semi-Autoregressive Generation #Confidence-Scheduled Verification #Hardware-Aware Scheduler #LLM Inference Acceleration #Throughput Optimization

2026년 7월 7일

[논문리뷰] CanvasAgent: Enabling Complex Image Creation and Editing via Visual Tool Orchestration

본 논문은 복잡한 이미지 생성 및 편집 워크플로우를 수행하는 멀티모달 에이전트의 한계를 해결하기 위해 CanvasAgent를 제안한다.

#Review #Multimodal Agents #Image Creation #Tool Orchestration #Reinforcement Learning #Hybrid Reward #Trajectory Optimization

2026년 7월 7일

[논문리뷰] CGGS: Consistency-Augmented Geometric Gaussian Splatting for Ego-centric 3D Scene Generation

본 연구는 기존 ego-centric 3D 생성 모델들이 시점 변화에 따른 심각한 Consistency 저하 및 기하학적 왜곡 문제를 겪고 있다는 점을 해결하고자 한다.

#Review #3D Scene Generation #Gaussian Splatting #Ego-centric #Consistency #Geometry #Generative Modeling

2026년 7월 7일

[논문리뷰] Bibby AI: An Editor-Native Agentic Platform for Academic Research, Writing, and Publishing

본 논문은 현대 학술 연구 과정이 여러 도구로 파편화되어 있어 발생하는 과도한 컨텍스트 전환과 비효율 문제를 해결하고자 한다.

#Review #Academic Writing #Agentic Platform #LaTeX #Toolchain Compression #Retrieval-Augmented Generation #Scholarly Infrastructure

2026년 7월 7일

[논문리뷰] AlayaWorld: Long-Horizon and Playable Video World Generation

본 논문은 노동 집약적인 기존 게임 개발 파이프라인의 한계를 극복하고, 확장성과 적응성이 뛰어난 상호작용 가능한 가상 세계를 생성하는 Generative World Models의 기반을 마련하고자 합니다.

#Review #Generative World Models #Interactive Video Generation #Long-Horizon Generation #Spatial Memory #Camera Control #Open-ended Action #Prompt-switching

2026년 7월 7일

[논문리뷰] 3D HAMSTER: Bridging Planning and Control in Hierarchical Vision Language Action Models through 3D Trajectory Guidance

본 논문은 기존의 Hierarchical VLA 모델들이 직면한 2D 계획과 3D 실행 사이의 표현적 불일치(Representational Misalignment) 문제를 해결합니다.

#Review #Vision-Language-Action Models #3D Trajectory Guidance #Hierarchical Robotics #Metric Depth #Point Cloud Policy

2026년 7월 7일

[vllm] [vLLM 성능 최적화] Kimi-K2.5/K2.6 이미지 전처리 10배 가속화: Numba와 퓨전 기법 활용

vLLM에서 Kimi-K2.5/K2.6 모델의 이미지 전처리를 Numba와 룩업 테이블로 최대 10배 최적화한 사례를 분석합니다.

#vLLM #성능 최적화 #Numba #이미지 전처리 #Kimi-K2.5 #Python #Deep Learning

2026년 7월 6일

[sglang] sglang, 멀티모달 모델 인코더 병렬 처리 최적화: 전체 복제본 활용으로 성능 향상

sglang PR 분석: 멀티모달 모델의 텍스트/이미지 인코더 병렬 처리 방식을 개선하여 전체 GPU 복제본을 활용하고 성능을 극대화합니다.

#sglang #병렬 처리 #최적화 #멀티모달 #딥러닝

2026년 7월 6일

[vllm] vLLM 성능 최적화: token_to_req_indices 캐싱을 통한 6배 성능 향상

vLLM에서 중복되던 CPU-GPU 간 데이터 복사를 제거하여 커널 성능을 5~6배 개선한 최적화 사례를 분석합니다.

#vLLM #LLM #Performance #Optimization #CUDA

2026년 7월 6일

[vllm] vLLM Transformers Modeling Backend 성능 최적화: 네이티브 수준의 속도 달성

Transformers 모델링 백엔드에 Fused Linear와 MoE 최적화를 도입하여 vLLM 네이티브 수준의 성능을 구현한 기술적 분석.

#vLLM #LLM #Optimization #Transformers #PyTorch

2026년 7월 6일

[논문리뷰] dOPSD: On-Policy Self-Distillation for Diffusion Language Models

본 논문은 dLLM의 추론 성능을 향상시키기 위한 효과적인 post-training 방법론의 부재 문제를 다룬다. 기존의 Supervised Fine-Tuning은 off-policy 문제로 인한 exposure bias에 취약하며, RLVR은 보상이 희소하고 sequence-level에 국한된다는 한계가 있다.

#Review #Diffusion Language Models #On-Policy Self-Distillation #Privileged Information #Denoising Trajectory #Reasoning

2026년 7월 6일

[논문리뷰] Wan-Streamer v0.2: Higher Resolution, Same Latency

본 논문은 Wan-Streamer v0.1의 핵심인 네이티브 스트리밍 프레임워크를 유지하면서, 기존 192p의 낮은 출력 해상도를 개선하여 실시간 상호작용의 시각적 품질을 높이는 것을 목표로 합니다.

#Review #Native-streaming #Audio-visual Interaction #Context-parallel #Latency-preserving #Ulysses-style #Flow-matching #Real-time

2026년 7월 6일

[논문리뷰] Vision Pretraining for Dense Spatial Perception

본 논문은 현대의 비전 파운데이션 모델들이 Semantic Invariance를 우선시하여 고밀도 공간 이해(Dense Spatial Perception) 능력이 부족하다는 문제를 해결하고자 한다 .

#Review #Vision Pretraining #Masked Boundary Modeling #Self-Supervised Learning #Dense Spatial Perception #Vision Transformer #Boundary-Forcing Masking #Categorical Reparameterization

2026년 7월 6일

[논문리뷰] Unified Audio Intelligence Without Regressing on Text Intelligence

본 논문은 오디오와 비전 등 다중 모달 능력을 강화한 기존 LLM들이 텍스트 추론 및 지식 처리 능력에서 심각한 성능 퇴보를 보이는 문제를 해결하고자 합니다. 특히 최근의 멀티모달 모델들은 강력한 생성 능력을 갖추었음에도 불구하고, Reasoning 벤치마크에서 원본 모델 대비 눈에 띄는 저하를 보입니다.

#Review #Audio-Text LLM #Mixture-of-Experts (MoE)#Multimodal Generation #Cascade RL #Audio Intelligence

2026년 7월 6일

[논문리뷰] UI-MOPD: Multi-Platform On-Policy Distillation for Continual GUI Agent Learning

GUI agent는 단일 플랫폼을 넘어 다양한 환경(데스크탑, 모바일)으로 확장되고 있으나, 플랫폼 간 이질적인 상호작용 방식과 높은 품질의 교차 플랫폼 궤적 부족으로 인해 학습에 어려움을 겪고 있다 .

#Review #GUI Agent #Multi-Teacher On-Policy Distillation #Continual Learning #Cross-Platform #Desktop/Mobile #Reinforcement Learning

2026년 7월 6일

[논문리뷰] Transition-Aware best-of-N sampling for Longitudinal Chest X-ray Reports

본 연구는 대부분의 기존 Chest X-ray 보고서 생성 모델 및 Best-of-N 파이프라인이 환자의 이전 검사 이력을 무시하고 단일 이미지에만 의존한다는 한계를 해결합니다.

#Review #Chest X-ray #Report Generation #Best-of-N Sampling #Longitudinal Context #Vision-Language Models #Set-to-Set Distance #Clinical Transition

2026년 7월 6일

[논문리뷰] Taste-aware music retrieval from audio embeddings

본 연구는 소리와 맛 사이의 상관관계가 인간의 심리적 연구에서는 잘 확립되어 있음에도 불구하고, 콘텐츠 기반 멀티미디어 검색 분야에서는 거의 다뤄지지 않고 있다는 문제의식에서 출발합니다.

#Review #Audio Embeddings #Music Information Retrieval #Crossmodal Correspondence #Multimodal Learning #Taste Prediction

2026년 7월 6일

[논문리뷰] SynCity 3000: Bootstrapping Scene-Scale 3D Diffusion

본 논문은 기존의 3D 장면 생성 모델이 지닌 규모 확장성과 일관성 문제를 해결하기 위해 SynCity 3000을 제안한다. 기존 연구들은 주로 단일 오브젝트 생성에 특화되어 있거나, 장면을 독립적인 타일(tile)들의 집합으로 간주하여 생성함으로써 결과물에서 눈에 띄는 격자(grid-like) 구조적 결함을 야기한다 .

#Review #3D Scene Generation #Diffusion Models #Convolutional Inference #Scene-Scale #Synthetic Data Engine #3D Gaussian Splats

2026년 7월 6일