[PyTorch] FlexAttention에 저정밀도 K/V 입력 지원 추가FlexAttention compiled 모드에서 FP8 등 저정밀도 K/V 입력을 허용하여 양자화 추론을 지원한다#PyTorch#FlexAttention#FP8#Quantization2026년 1월 5일댓글 수 로딩 중
[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language ModelsDiffusion Language Models (dLLMs)의 미흡한 post-training (특히 RL) 성능을 개선하여 수학적 추론 능력과 실제 배포 효율성을 향상시키는 것을 목표로 합니다.#Review#Diffusion Language Models#Post-Training#Reinforcement Learning#GRPO#FlexAttention#LMDeploy#Math Reasoning#SFT2025년 12월 29일댓글 수 로딩 중
[Triton] TMEM Store 레이아웃 변환 최적화 — FlexAttention 성능 복구TMEM Store에 불필요한 layout conversion을 fold하여 FlexAttention 성능 저하 해결#Triton#MLIR#FlexAttention#Compiler Optimization#NVIDIA2025년 10월 3일댓글 수 로딩 중