최신 포스트

[논문리뷰] Anisotropic Modality Align

MLLM 학습은 고품질의 쌍(paired) 멀티모달 데이터 부족이라는 고질적인 문제에 직면해 있으며, 이를 해결하기 위해 공유 임베딩 공간에서 unimodal 데이터를 정렬하는 방식이 주목받고 있다.

#Review #Multimodal Large Language Models #Modality Gap #Unpaired Alignment #Anisotropic Geometric Correction #Representation Learning

2026년 5월 10일

[논문리뷰] AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

본 논문은 Agentic RL에서 발생하는 sparse, outcome-level reward 문제를 해결하기 위해 응답 수준에서의 정교한 Credit Assignment 프레임워크를 제안합니다.

#Review #Agentic Reinforcement Learning #Credit Assignment #Adaptive Entropy Modulation #Large Language Models #Exploration-Exploitation Trade-off #Surprisal #Policy Optimization

2026년 5월 10일

[논문리뷰] 4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding

본 논문은 기존 VLM이 동적 공간 추론에서 겪는 불투명성과 성능 한계를 해결하기 위해 4DThinker를 제안합니다. 기존 연구들은 추론 과정을 텍스트로만 기술하거나 외부 기하학적 모듈을 의존하여 추론 복잡도를 증가시키고 모델 자체의 내재적 능력을 제한하는 한계를 보입니다 .

#Review #Vision-Language Models #Dynamic Spatial Reasoning #Latent Mental Imagery #Dynamic-Imagery Fine-Tuning (DIFT)#4D Reinforcement Learning (4DRL)#Chain-of-Thought (CoT)

2026년 5월 10일

[cpython] CPython inspect.getattr_static 성능 개선: 일반적인 메타클래스 사례 최적화

CPython의 inspect.getattr_static 함수가 일반적인 메타클래스 사용 시 성능을 개선하는 방법을 분석합니다.

#Python #CPython #Performance #Optimization #Inspect #Metaclass

2026년 5월 10일

[sglang] SGLang의 MHC 파이프라인 최적화: 커널 퓨전과 DeepGemm 도입

MHC 파이프라인에서 커널 퓨전과 DeepGemm을 활용해 연산 효율을 극대화하고 HBM 접근을 최소화하여 성능을 개선했습니다.

#SGLang #CUDA #Triton #DeepGemm #Optimization

2026년 5월 10일

[openclaw] Telegram 메시지 캐시 최적화: 전체 파일 재작성 대신 변경분만 기록하기

Telegram 메시지 캐시 저장 방식을 개선하여 성능을 크게 향상시키고 디스크 I/O를 줄였습니다.

#Telegram #캐싱 #성능 최적화 #Node.js #디스크 I/O

2026년 5월 9일

[sglang] SGLang의 FP4 GEMM 성능 최적화: CuTe DSL 백엔드 도입

SGLang에 FlashInfer의 CuTe DSL 기반 FP4 GEMM 백엔드를 추가하여 SM100 아키텍처에서의 연산 성능을 최적화했습니다.

#SGLang #FP4 #GEMM #CUDA #CuTe #FlashInfer

2026년 5월 9일

[sglang] SGLang: Triton 버전 업그레이드에 따른 MoE 성능 회귀 해결 및 설정 자동화

PyTorch 2.11 업그레이드 이후 발생한 Triton 버전 호환성 문제를 해결하고, MoE 커널 설정 탐색 로직을 동적으로 개선하여 성능 회귀를 방지하는 방법.

#SGLang #Triton #DeepSeek #MoE #PerformanceOptimization

2026년 5월 9일

[sglang] SGLang 성능 최적화: PDL 도입과 안전한 CUDA 동기화로 DSV3.2/GLM-5 가속하기

PDL(Programmatic Dependency Launch) 도입과 CUDA 커널의 메모리 배리어 수정을 통해 추론 지연 시간을 개선하고 안정성을 확보했습니다.

#CUDA #SGLang #Performance Optimization #LLM Inference #Triton

2026년 5월 9일

[vllm] vLLM DeepSeek v4 Fused Indexer Q 양자화 커널 최적화: CuteDSL을 활용한 성능 향상

vLLM의 DeepSeek v4 Indexer Q 커널을 CuteDSL로 재작성하여 256비트 로드를 활용, 성능을 대폭 개선합니다.

#vLLM #DeepSeekV4 #CUDA #CuteDSL #KernelOptimization #GPUPerformance #MXFP4 #Quantization

2026년 5월 9일

[flashinfer] FlashInfer의 Per-token NVFP4 Quantization 커널 최적화 분석

FlashInfer의 NVFP4 양자화 커널 성능 개선: 블록 사이즈 최적화 및 Fast Math 제어 옵션 도입

#FlashInfer #CUDA #Quantization #LLM #Performance

2026년 5월 8일

[flashinfer] FlashInfer, MoE 및 FP8 GEMM 성능 향상을 위한 커널 업데이트

FlashInfer의 MoE 및 FP8 GEMM 커널 업데이트를 통해 성능을 최적화하고 호환성을 개선합니다.

#FlashInfer #GEMM #MoE #FP8 #CUDA #최적화

2026년 5월 8일

[sglang] [AMD/ROCm] Temporal Unfolding을 통한 VAE Conv3D 성능 최적화 분석

ROCm 환경에서 VAE의 CausalConv3d를 수학적으로 동일한 Batched Conv2D로 변환하여 3.6%의 성능 향상을 달성한 기법을 소개합니다.

#AMD #ROCm #Deep Learning #Optimization #SGLang #PyTorch

2026년 5월 8일

[sglang] AMD GPU에서 FP8 MLA를 활용한 Diffusion 모델 성능 최적화

FP8 MLA ASM 커널을 도입하여 AMD MI355X 환경에서 Diffusion 모델의 추론 속도를 최대 19% 향상시켰습니다.

#AMD #ROCm #FP8 #MLA #SGLang #Optimization

2026년 5월 8일

[sglang] SGLang: ROCm 환경에서 RMSNorm 최적화 - Triton에서 aiter 커널로 전환

SGLang에서 ROCm 환경의 RMSNorm 성능을 aiter 커널로 교체하여 30% 이상 개선했습니다.

#SGLang #ROCm #RMSNorm #aiter #성능 최적화 #HIP #GPU 프로그래밍

2026년 5월 8일

[논문리뷰] The Scaling Properties of Implicit Deductive Reasoning in Transformers

본 논문은 depth-bounded Transformer가 내재적(implicit)으로 수행하는 연역적 추론의 확장성(scaling) 한계를 규명합니다.

#Review #Transformers #Implicit Deductive Reasoning #Horn Clauses #Chain-of-Thought #Scaling Properties #Shortcut Learning #Algorithmic Alignment

2026년 5월 7일

[논문리뷰] TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

본 논문은 LLM이 자연어 처리에 성공한 것과 달리, tabular 데이터를 위한 통합된 representation 패러다임이 부재하다는 점을 해결하고자 합니다 .

#Review #Tabular Embedding #Contrastive Learning #Tabular Understanding #Foundation Models #Representation Learning #Tabular Retrieval

2026년 5월 7일

[논문리뷰] SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

본 논문은 2K 고해상도 I2V 생성에서 발생하는 계산 효율성(Efficiency)과 입력 이미지 충실도(Fidelity) 사이의 심각한 trade-off 문제를 해결하고자 한다.

#Review #Image-to-Video #High-Resolution Generation #Diffusion Transformer #Conditional Segment-wise Generation #Efficiency #Streaming Inference

2026년 5월 7일

[논문리뷰] MARBLE: Multi-Aspect Reward Balance for Diffusion RL

본 논문은 diffusion model을 human preference에 맞게 미세 조정할 때, 여러 개의 reward를 동시에 최적화하는 과정에서 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Diffusion Models #Reinforcement Learning #Multi-Reward Optimization #Gradient Harmonization #Reward Balancing #Alignment

2026년 5월 7일

[논문리뷰] Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

본 논문은 기존의 Diffusion Distillation 방식이 학습 및 추론 시 고정된 이산적 타임스텝(discrete anchors)에 지나치게 의존함으로써 발생하는 성능 저하 문제를 해결하고자 한다.

#Review #Diffusion Models #Distillation #Continuous-Time Optimization #Distribution Matching #Few-Step Generation #Flow Matching

2026년 5월 7일