#FlexAttention

3개의 포스트

[PyTorch] FlexAttention에 저정밀도 K/V 입력 지원 추가

FlexAttention compiled 모드에서 FP8 등 저정밀도 K/V 입력을 허용하여 양자화 추론을 지원한다

#PyTorch #FlexAttention #FP8 #Quantization

2026년 1월 5일

[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language Models

arXiv에 게시된 'DiRL: An Efficient Post-Training Framework for Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Diffusion Language Models #Post-Training #Reinforcement Learning #GRPO #FlexAttention #LMDeploy #Math Reasoning #SFT

2025년 12월 29일

[Triton] TMEM Store 레이아웃 변환 최적화 — FlexAttention 성능 복구

TMEM Store에 불필요한 layout conversion을 fold하여 FlexAttention 성능 저하 해결

#Triton #MLIR #FlexAttention #Compiler Optimization #NVIDIA

2025년 10월 3일