[논문리뷰] LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation본 논문은 Autoregressive(AR) 비디오 생성 모델에서 장기 생성 시 발생하는 오류 누적과 identity drift 문제를 해결하고자 합니다. 기존 방식은 효율성을 위해 Sliding-window Attention에만 의존하며, 생성된 초기 Latent를 폐기하거나 고정된 앵커(anchor)만을 사용합니다 .#Review#Long Video Generation#Autoregressive#Retrieval-Augmented Generation#Video Diffusion#Temporal Consistency#Attention2026년 6월 1일댓글 수 로딩 중
[sglang] sglang ROCm MXFP4 어텐션에서 불필요한 contiguous copy 제거를 통한 성능 최적화ROCm 환경의 MXFP4 디코딩 경로에서 발생하는 불필요한 메모리 복사를 제거하여 성능을 개선한 PR 분석입니다.#sglang#ROCm#MXFP4#Attention#Optimization#Performance#Deepseek2026년 5월 29일댓글 수 로딩 중
[triton] Triton Gluon Attention 커널의 Autotuning을 통한 성능 최적화 분석Triton Gluon 예제에서 커널 설정을 동적으로 선택하는 Autotuning 로직을 도입하여 다양한 시나리오에서 성능을 개선했습니다.#Triton#GPU#Optimization#Attention#DeepLearning2026년 4월 23일댓글 수 로딩 중
[논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV Compression본 논문은 기존 KV Cache 압축 기법들이 post-RoPE 공간의 제한된 관측치에 의존하여 발생하는 불안정성 문제를 해결하고자 합니다. 기존 방식들은 회전이 적용된 post-RoPE 쿼리를 사용하므로, 대표성 있는 쿼리 확보가 어려워 중요한 토큰이 조기에 삭제되는 현상이 빈번합니다 .#Review#KV Cache#LLM#Attention#RoPE#Compression#Reasoning2026년 4월 6일댓글 수 로딩 중
[sglang] TRT-LLM Sparse MLA 커널의 prefill 배치 지원TRT-LLM sparse MLA 커널이 prefill 배치에서 올바른 page table 변환을 사용하도록 수정하여 정확도 개선#SGLang#TRT-LLM#MLA#DeepSeek#Attention2026년 4월 1일댓글 수 로딩 중
[faster-qwen3-tts] SDPA 전환으로 BF16 StaticCache hidden-state 발산 수정eager attention에서 SDPA로 전환하여 StaticCache 패딩 길이에 따른 BF16 hidden-state 발산 문제를 해결한다#faster-qwen3-tts#TTS#CUDA Graphs#Attention2026년 3월 4일댓글 수 로딩 중
[pytorch] MPS: 2-pass SDPA의 메모리 손상을 float accumulator 강제로 수정Apple MPS 백엔드의 2-pass Scaled Dot-Product Attention에서 half precision accumulator로 인한 메모리 손상 버그를 float32 강제 전환으로 해결한 사례를 분석합니다.#PyTorch#MPS#SDPA#Attention#Precision#Apple Silicon#Bug Fix2026년 2월 24일댓글 수 로딩 중
[triton] Triton AMD 백엔드: 8-Wave PingPong Attention 커널 구현 분석AMD GPU 환경에서 성능 향상을 위한 8-Wave PingPong Attention 커널 구현 및 파이프라이닝 최적화 기법을 살펴봅니다.#Triton#AMD#GPU#Attention#Optimization2026년 2월 10일댓글 수 로딩 중
[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times본 논문은 비디오 확산 모델의 엔드-투-엔드 생성 속도를 100~200배 가속화하면서도 비디오 품질을 유지하는 것을 목표로 합니다. 이는 현재 확산 모델의 높은 계산 비용으로 인한 비효율성을 해결하고, 고품질 비디오 생성을 더욱 실용적으로 만드는 데 중점을 둡니다.#Review#Video Generation#Diffusion Models#Acceleration#Quantization#Attention#Step Distillation#Performance Optimization#RTX 50902025년 12월 24일댓글 수 로딩 중