최신 포스트

[논문리뷰] Token Warping Helps MLLMs Look from Nearby Viewpoints

본 논문은 토큰을 변환 단위로 사용하는 Token Warping 프레임워크를 제안하며, 특히 Backward Token Warping이 안정성과 의미론적 일관성 측면에서 가장 우수함을 입증한다. 와 는 MLLM 토큰이 위치 잡음에 강건하다는 점을 증명하며, 이를 바탕으로 시점 변환 시 토큰 기반의 역투영 기법을 적용한다.

#Review #Multimodal Large Language Models #Token Warping #Viewpoint-Aware Reasoning #Spatial Reasoning #Mental Imagery

2026년 4월 5일

[논문리뷰] Self-Distilled RLVR

본 논문은 OPSD 가 훈련 초기에는 성능 향상을 보이나, 곧 정보 누출(Information Leakage)로 인해 성능이 저하되는 원인을 규명하고 이를 해결하고자 합니다.

#Review #LLM Post-training #Reinforcement Learning #Self-Distillation #Information Asymmetry #Credit Assignment #RLVR

2026년 4월 5일

[논문리뷰] InCoder-32B-Thinking: Industrial Code World Model for Thinking

본 논문은 기존 LLM이 일반 코딩 작업에서는 뛰어난 성능을 보이나, 하드웨어 제약 조건과 복잡한 타이밍 시맨틱이 중요한 산업용 소프트웨어 개발 환경에서는 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Industrial Code Intelligence #Chain-of-Thought #World Model #Error-driven Synthesis #Hardware-aware Coding

2026년 4월 5일

[논문리뷰] CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

본 논문은 현대의 Vision-Language Models (VLMs)가 단일 비전 인코더(대체로 CLIP 기반)에 의존함에 따라 발생하는 세밀한 시각적 이해 및 위치 파악(Grounding) 능력의 한계를 해결하고자 합니다.

#Review #Vision-Language Models #Multi-Encoder Fusion #Entropy-Guided Selection #Orthogonal Layer #RoPE #Visual Grounding #Multimodal Understanding

2026년 4월 5일

[논문리뷰] Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

본 논문은 MLLM이 단순한 관찰자에서 능동적 에이전트로 진화함에 따라, 시각적 조작과 지식 검색의 결합 능력을 체계적으로 평가할 필요성을 제기합니다. 기존의 벤치마크들은 도구 통합의 유연성이 부족하거나, 시각적 도구와 웹 검색을 독립적으로 평가하여 이들의 Synergy 를 간과하고 있습니다.

#Review #Multimodal Large Language Models #Agentic Capability #Visual Expansion #Knowledge Expansion #Process-Verified Benchmark #Synergistic Reasoning

2026년 4월 5일

[논문리뷰] AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

저자들은 AgentSocialBench를 도입하여 7개 카테고리, 300개 이상의 시나리오를 통해 에이전트의 프라이버시 보존 성능을 체계적으로 평가합니다 . 제안된 프레임워크는 사용자 프로파일의 민감도 계층, 지향성 사회 그래프, 그리고 명시적 프라이버시 경계를 포함합니다.

#Review #LLM Agents #Agentic Social Networks #Privacy Preservation #Contextual Integrity #Information Abstraction #Abstraction Paradox

2026년 4월 5일

[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.

#Review #Computer-Use Agents #Agent Safety #Benchmark #Harmful Behavior #Trajectory-level Evaluation #Multi-step Reasoning

2026년 4월 5일

[논문리뷰] A Simple Baseline for Streaming Video Understanding

본 연구에서 제안하는 SimpleStream은 추가적인 학습이나 별도의 메모리 구조 없이, 오직 마지막 $N$개의 프레임을 오프-더-셸프 VLM에 전달하는 최소주의적 추론 정책을 채택합니다 . 저자들은 OVO-Bench와 StreamingBench를 통해 13개의 주요 온라인 및 오프라인 비디오 LLM 베이스라인과 성능을 비교하였습니다.

#Review #Streaming Video Understanding #Video LLM #Simple Baseline #Perception-Memory Trade-off #OVO-Bench

2026년 4월 5일

[sglang] SGLang에서 DeepSeek V3.2를 위한 IndexCache 최적화 구현

DeepSeek V3.2 모델의 IndexCache 도입을 통해 추론 성능을 약 6.4% 향상시킨 기술적 분석과 구현 상세.

#SGLang #DeepSeek #LLM #Optimization #Inference

2026년 4월 5일

[sglang] SGLang Diffusion 모델의 NVFP4 추론 성능 최적화: CUTLASS 도입

Diffusion 모델의 NVFP4 연산 기본 백엔드를 CUTLASS로 전환하여 성능을 대폭 개선하고 벤치마크를 추가했습니다.

#SGLang #Diffusion #NVFP4 #CUTLASS #Performance

2026년 4월 4일

[sglang] [VLM] 멀티모달 임베딩 최적화: 청크 인식 인코딩과 이미지별 캐싱 도입

SGLang의 VLM 추론 성능을 획기적으로 개선하는 코드 변경 분석: 청크 인식 인코딩, 이미지별 캐싱, 지연 장치 전송 도입.

#VLM #Optimization #SGLang #Multimodal #Caching #Performance

2026년 4월 4일

[sglang] SGLang에서 FA4(FlashAttention 4)와 Speculative Decoding의 완벽한 결합

FA4를 Speculative Decoding 파이프라인에 통합하여 저지연 추론 성능을 극대화하는 최적화 기법을 분석합니다.

#SGLang #FlashAttention4 #SpeculativeDecoding #LLM #Optimization

2026년 4월 4일

[ollama] Ollama의 Gemma 4 모델 Flash Attention 비활성화: 성능 회귀(Regression) 해결 사례

Gemma 4 모델에서 Flash Attention 적용 후 발생한 40% 이상의 성능 저하 문제를 Revert를 통해 해결한 사례를 분석합니다.

#Ollama #FlashAttention #Performance #Gemma4 #Optimization

2026년 4월 4일

[sglang] SGLang DeepSeekV3 Router GEMM 최적화: FlashInfer 커널 도입 및 벤치마킹

DeepSeekV3 라우터 GEMM 성능 최적화를 위해 FlashInfer 커널을 도입하고 벤치마킹합니다.

#SGLang #DeepSeekV3 #FlashInfer #GEMM #최적화 #벤치마킹 #Blackwell #GPU

2026년 4월 4일

[vllm] vLLM 성능 최적화: cuMemcpyBatchAsync를 활용한 KV 캐시 스왑 효율화

vLLM에서 KV 캐시 오프로딩 시 발생하는 개별 복사 오버헤드를 cuMemcpyBatchAsync로 통합하여 최대 7.4배의 성능 향상을 달성했습니다.

#vLLM #CUDA #Performance #KV-Cache #Optimization

2026년 4월 3일

[vllm] vLLM의 Mamba 모델 성능 최적화: Conv State 레이아웃 개선

Mamba 모델의 Conv State 레이아웃을 SD에서 DS로 변경하여 TTFT 성능을 약 1.5배 개선하고 HeterogeneousTP를 지원합니다.

#vLLM #Mamba #Optimization #DeepLearning #Performance

2026년 4월 3일

[cpython] CPython의 PySet_Contains 최적화: Lock-Free 탐색 도입으로 성능 향상

CPython의 PySet_Contains 함수에 Lock-Free 탐색을 도입하여 성능을 개선한 PR 분석.

#CPython #Python Internals #Performance Optimization #Lock-Free #Concurrency

2026년 4월 3일

[vllm] [vLLM] GPU-CPU 동기화 병목 제거: prepare_chunk_indices 최적화 분석

GDN Prefill 과정에서 발생하는 .tolist() 호출에 의한 GPU-CPU 동기화 병목을 제거하여 추론 효율성을 높인 사례를 분석합니다.

#vLLM #CUDA #Performance-Optimization #Deep-Learning #Triton

2026년 4월 3일

[논문리뷰] Woosh: A Sound Effects Foundation Model

본 논문은 사운드 이펙트 생성에 특화된 고품질 오픈 소스 파운데이션 모델의 부재를 해결하기 위해 Woosh 를 제안한다. 기존의 오픈 모델들은 저해상도 오디오(16kHz 제한)만을 지원하거나, 음악 생성에 치우쳐 있어 프로페셔널 사운드 이펙트 제작에 한계가 있다.

#Review #Foundation Model #Sound Effects #Latent Diffusion Model #Flow Matching #Audio-Visual Generation #Distillation

2026년 4월 2일

[논문리뷰] VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

본 논문은 현재의 Video MLLM 평가 방식이 답변의 정성적 정확도에만 치중하여 실제적인 시공간적 추론 역량을 제대로 측정하지 못한다는 문제를 지적한다. 기존 벤치마크들은 고득점을 기록하지만, 모델이 정답을 도출하기 위해 필요한 핵심적인 시각적 증거를 정확하게 탐색하고 활용하는지 검증하지 못한다 .

#Review #Video MLLM #Spatio-Temporal Grounding #Benchmark #Long-Video Understanding #Evidence Verification #Atomic Ability

2026년 4월 2일