#Flash Attention

5개의 포스트

[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가

GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.

#Axolotl #GRPO #LLM Training #Performance #Flash Attention #PyTorch #Reinforcement Learning

2026년 3월 28일

[논문리뷰] Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

arXiv에 게시된 'Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking' 논문에 대한 자세한 리뷰입니다.

#Review #Context Parallelism #Memory Efficiency #Headwise Chunking #Transformer Training #DeepSpeed Ulysses #LLMs #Activation Memory #Flash Attention

2026년 2월 24일

[논문리뷰] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

arXiv에 게시된 'Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space' 논문에 대한 자세한 리뷰입니다.

#Review #Hierarchical Language Model #Concept-Level Reasoning #Dynamic Segmentation #Adaptive Computation #Scaling Laws #Maximal Update Parametrization #Next-Token Prediction #Flash Attention

2026년 1월 1일

[triton] AMD: LLVM 백엔드에 커스텀 스케줄러 옵션 추가로 메모리 바운드 커널 최적화

AMD HIP 백엔드에 iterative-ilp 스케줄러를 선택할 수 있는 schedule_hint 옵션을 추가하여 메모리 바운드 Flash Attention 커널 성능을 개선한 분석.

#Triton #AMD #LLVM #Scheduler #Flash Attention #Performance

2025년 11월 14일

[논문리뷰] Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

arXiv에 게시된 'Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention' 논문에 대한 자세한 리뷰입니다.

#Review #Low-Precision Training #Flash Attention #Transformer #Numerical Stability #BF16 #Rounding Error #Gradient Bias #Deep Learning Optimization

2025년 10월 9일