[onnxruntime] ONNX Runtime의 CPU GQA 최적화: Flash Attention과 Flash Decoding 도입CPU 환경에서 INT8/INT4 양자화된 KV 캐시를 위한 Flash Attention 기반의 타일링 및 Flash Decoding 구현으로 성능을 극대화합니다.#ONNX Runtime#LLM#Flash Attention#CPU Optimization#Quantization2026년 5월 29일댓글 수 로딩 중
[transformers] Apple Silicon의 MPS에서 Flash Attention 최적화: 속도와 효율성 향상Apple Silicon의 MPS 환경에서 Flash Attention의 성능을 1.66배 향상시키는 최적화 방안을 소개합니다.#Apple Silicon#MPS#Flash Attention#최적화#성능 향상#Hugging Face Transformers2026년 5월 28일댓글 수 로딩 중
[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.#Axolotl#GRPO#LLM Training#Performance#Flash Attention#PyTorch#Reinforcement Learning2026년 3월 28일댓글 수 로딩 중
[논문리뷰] Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking본 논문은 트랜스포머 모델의 장문 시퀀스 훈련에서 기존 컨텍스트 병렬화 기법들이 직면하는 활성화 메모리 병목 현상 을 해결하여 지원 가능한 시퀀스 길이를 확장하는 것을 목표로 합니다. 특히, 메모리 효율성을 높이면서도 훈련 처리량은 유지하는 새로운 방법론을 제시하고자 합니다.#Review#Context Parallelism#Memory Efficiency#Headwise Chunking#Transformer Training#DeepSpeed Ulysses#LLMs#Activation Memory#Flash Attention2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space본 논문은 기존 대규모 언어 모델(LLM)이 언어의 비균일한 정보 밀도에도 불구하고 토큰에 균일한 연산을 적용하여 발생하는 비효율성 문제를 해결하고자 합니다.#Review#Hierarchical Language Model#Concept-Level Reasoning#Dynamic Segmentation#Adaptive Computation#Scaling Laws#Maximal Update Parametrization#Next-Token Prediction#Flash Attention2026년 1월 1일댓글 수 로딩 중
[triton] AMD: LLVM 백엔드에 커스텀 스케줄러 옵션 추가로 메모리 바운드 커널 최적화AMD HIP 백엔드에 iterative-ilp 스케줄러를 선택할 수 있는 schedule_hint 옵션을 추가하여 메모리 바운드 Flash Attention 커널 성능을 개선한 분석.#Triton#AMD#LLVM#Scheduler#Flash Attention#Performance2025년 11월 14일댓글 수 로딩 중
[논문리뷰] Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention본 논문은 저정밀도(low-precision) Flash Attention 을 사용하는 Transformer 모델 학습 시 발생하는 치명적인 손실 폭발(loss explosion) 현상의 기계론적 원인 을 규명하는 것을 목표로 합니다.#Review#Low-Precision Training#Flash Attention#Transformer#Numerical Stability#BF16#Rounding Error#Gradient Bias#Deep Learning Optimization2025년 10월 9일댓글 수 로딩 중