[PyTorch] FlexAttention에 저정밀도 K/V 입력 지원 추가FlexAttention compiled 모드에서 FP8 등 저정밀도 K/V 입력을 허용하여 양자화 추론을 지원한다#PyTorch#FlexAttention#FP8#Quantization2026년 1월 5일댓글 수 로딩 중
[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language ModelsarXiv에 게시된 'DiRL: An Efficient Post-Training Framework for Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Language Models#Post-Training#Reinforcement Learning#GRPO#FlexAttention#LMDeploy#Math Reasoning#SFT2025년 12월 29일댓글 수 로딩 중
[Triton] TMEM Store 레이아웃 변환 최적화 — FlexAttention 성능 복구TMEM Store에 불필요한 layout conversion을 fold하여 FlexAttention 성능 저하 해결#Triton#MLIR#FlexAttention#Compiler Optimization#NVIDIA2025년 10월 3일댓글 수 로딩 중