최신 포스트

[논문리뷰] FlexiSLM: A Dynamic and Controllable Frame Rate Spoken Language Model

본 논문은 기존 Spoken Language Model(SLM)들이 고정된 frame rate(fixed frame rate)를 사용하여 불필요한 연산 자원을 낭비하고, 추론 시 속도와 품질 간의 유연한 조절이 불가능하다는 문제를 해결하고자 한다.

#Review #Spoken Language Model #Dynamic Frame Rate #Controllable Generation #Speech Tokenization #Frame Merging #Inference Efficiency

2026년 6월 30일

[논문리뷰] Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks

본 논문은 최적화 작업에서 LLM의 탐색 및 개선 능력이 외부 Scaffold에 의존적이며, 모델 자체에 내재화되지 않는다는 문제를 해결합니다. 기존 연구들은 각 작업을 개별적으로 접근하여 매번 처음부터 탐색을 수행하고, 탐색 경험을 재사용하지 않는다는 한계가 있습니다.

#Review #Evolution Fine-Tuning #Large Language Models #Optimization Tasks #Cross-task Generalization #Search Scaffolds #Evolutionary Search #ℱinch

2026년 6월 30일

[논문리뷰] Dockerless: Environment-Free Program Verifier for Coding Agents

본 논문은 기존의 실행 기반(Execution-based) 프로그램 검증기가 가진 과도한 엔지니어링 오버헤드와 비확장성 문제를 해결하기 위해 Dockerless를 제안합니다.

#Review #Coding Agents #Environment-Free #Program Verifier #SWE-bench #Reinforcement Learning #Supervised Fine-tuning

2026년 6월 30일

[논문리뷰] DataEvolver: Self-Evolving Multi-Agent Data Construction for Text-Rich Image Generation

기존의 Text-rich image 데이터 구축 방식은 고정된 텍스트 크롤링 및 필터링(Crawl-filter-freeze paradigm)에 의존하고 있어, 데이터 구축 과정에서 발생하는 다양한 실패 사례를 유의미한 정보로 활용하지 못하는 한계가 있습니다.

#Review #Data Construction #Multi-Agent System #Text-Rich Image Generation #Feedback Loop #Policy Evolution

2026년 6월 30일

[논문리뷰] DOPD: Dual On-policy Distillation

본 논문은 OPD 환경에서 특권 정보를 주입할 때 발생하는 Privilege Illusion 문제를 해결하고자 합니다.

#Review #On-policy Distillation #Privileged Information #Privilege Illusion #Advantage-aware #Dual Distillation #Large Language Model #Vision-Language Model

2026년 6월 30일

[논문리뷰] BrainJanus: A Unified Model for Understanding and Generation across Brain, Vision, and Language

본 논문은 기존의 뇌-기계 인터페이스(BCI) 연구들이 Brain encoding과 decoding을 독립적인 작업으로 간주하고, 모달리티 간 통합이 결여된 단편적인 접근 방식을 취하는 한계를 해결하고자 합니다.

#Review #BrainJanus #Unified Model #Brain Encoding #Brain Decoding #Autoregressive #Omni Space #Tokenization

2026년 6월 30일

[논문리뷰] BlockPilot: Instance-Adaptive Policy Learning for Diffusion-based Speculative Decoding

본 논문은 기존의 Diffusion-based Speculative Decoding 방식이 모든 입력 데이터에 대해 동일한 Block Size를 사용하는 정적(static) 전략에 의존하고 있어 비효율적이라는 점을 지적합니다.

#Review #Speculative Decoding #Diffusion Language Models #Block-level Diffusion #Instance-Adaptive #Policy Learning #Inference Optimization

2026년 6월 30일

[논문리뷰] AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation

본 논문은 기존 오디오-비디오(AV) 생성 모델들이 겪고 있는 고비용의 Dual-branch 아키텍처 문제와 모달리티 간 Representation Gap을 해결하고자 합니다 .

#Review #Audio-Video Generation #Unified Tokenization #1D Latent Representation #Dual-stream Transformer #Hierarchical Training #Multimodal Learning

2026년 6월 30일

[axolotl] Axolotl에 도입된 Stateless 최적화: SinkGD로 메모리 효율 극대화하기

SinkGD를 통해 LLM 학습 시 옵티마이저 상태 메모리를 87% 절감하고 성능을 유지하는 최적화 기법을 분석합니다.

#LLM #Optimization #SinkGD #PyTorch #Axolotl

2026년 6월 30일

[sglang] [NPU] GLM-4.7-Flash 성능 최적화: Fused Triton 커널로 연산 병목 해결하기

Split과 RMSNorm 연산을 하나로 합친 Fused Kernel을 도입하여 GLM-4.7-Flash 모델의 NPU 추론 성능을 대폭 개선했습니다.

#NPU #Triton #Optimization #DeepSeek-V2 #SGLang #LLM Inference

2026년 6월 30일

[onnxruntime] ONNX Runtime QMoE SwiGLU GEMV 최적화: Split-K2 커널로 LLM 추론 가속화

ONNX Runtime의 Split-K2 SwiGLU GEMV 커널로 QMoE FC1 레이어 성능을 개선합니다.

#ONNXRuntime #CUDA #GEMV #Split-K2 #LLM #Optimization #SwiGLU #QMoE

2026년 6월 30일

[vllm] vLLM에 고성능 추론을 위한 HPC-Ops Attention 백엔드 도입

Tencent의 HPC-Ops 라이브러리를 vLLM에 통합하여 FP8 모델 추론 성능을 최적화하는 방법

#vLLM #LLM #HPC #FP8 #Attention

2026년 6월 30일

[open-webui] Open WebUI 성능 최적화: Svelte 컴포넌트에서 불필요한 HTML 재정제 방지

Svelte 컴포넌트에서 스트리밍 업데이트 시 불필요한 HTML 재정제를 방지하여 렌더링 성능을 크게 개선합니다.

#Svelte #Performance #Optimization #DOMPurify #Frontend #WebUI

2026년 6월 29일

[flashinfer] FlashInfer의 TRTLLM-Gen MoE 라우팅 최적화: 레지스터 압박 해소와 성능 극대화

MoE 라우팅 커널의 스레드 블록 크기를 동적으로 최적화하여 레지스터 압박을 줄이고 고성능을 달성한 사례 분석.

#FlashInfer #MoE #CUDA #GPU Optimization #TRTLLM

2026년 6월 29일

[vllm] vLLM의 성능 극대화: Helion 커널을 활용한 fused_qk_norm_rope 최적화

vLLM에 Helion 커널을 도입하여 fused_qk_norm_rope 연산 성능을 H100 기준 최대 1.38배 향상시킨 사례 분석.

#vLLM #Helion #KernelOptimization #CUDA #LLM

2026년 6월 29일

[faster-qwen3-tts] Qwen3-TTS, GGML 백엔드 통합으로 속도 혁신: C++ 네이티브 백엔드의 놀라운 성능 향상

Qwen3-TTS에 GGML 백엔드를 통합하여 C++ 네이티브 구현을 통해 획기적인 성능 개선을 달성했습니다.

#Qwen3-TTS #GGML #성능 최적화 #C++#TTS

2026년 6월 29일

[논문리뷰] ZooClaw-FashionSigLIP2: Distilled Fine-tuning for Robust Fashion Retrieval

본 논문은 패션 도메인 특화 미세 조정(fine-tuning) 과정에서 발생하는 Domain-specific Specialization과 OOD Generalization 간의 근본적인 Tradeoff 문제를 해결하는 데 집중합니다.

#Review #Vision-Language Encoder #Fashion Retrieval #Knowledge Distillation #WiSE-FT #Contrastive Learning #OOD Generalization #Model Soups

2026년 6월 29일

[논문리뷰] Walking in the Implicit: Interactive World Exploration via Neural Scene Representation

본 논문은 기존의 카메라 제어 기반 상호작용 세계 모델(Interactive World Model)들이 겪는 장기적인 일관성 유지 문제를 해결하고자 합니다.

#Review #Interactive World Exploration #Camera-Controlled Generation #Neural Implicit Scene #Neural Scene Representation #Diffusion Transformer

2026년 6월 29일

[논문리뷰] Video-MME-Logical: A Controlled Diagnostic Benchmark for Video Temporal-Logical Reasoning

본 논문은 현재의 MLLMs가 비디오 내의 동적인 시각적 증거를 바탕으로 논리적 추론을 수행하는 데 있어 심각한 한계를 가지고 있음을 지적한다.

#Review #Video-MME-Logical #Temporal-Logical Reasoning #MLLMs #Diagnostic Benchmark #Programmatic Generation #Intermediate-State Evaluation

2026년 6월 29일

[논문리뷰] Trimming the Long-Tail of Visual World Modeling Evaluation

본 논문은 현대의 World Models가 물리적 원리를 진정으로 내재화했는지, 아니면 학습 데이터의 통계적 규칙성에 의존하는지에 대한 근본적인 의문을 제기합니다.

#Review #Visual World Modeling #Long-Tail Scenarios #Physical Reasoning #Affordance Generalization #Multimodal Generative Models #Benchmark

2026년 6월 29일