[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.#Axolotl#GRPO#LLM Training#Performance#Flash Attention#PyTorch#Reinforcement Learning2026년 3월 28일댓글 수 로딩 중
[논문리뷰] Untied Ulysses: Memory-Efficient Context Parallelism via Headwise ChunkingarXiv에 게시된 'Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking' 논문에 대한 자세한 리뷰입니다.#Review#Context Parallelism#Memory Efficiency#Headwise Chunking#Transformer Training#DeepSpeed Ulysses#LLMs#Activation Memory#Flash Attention2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic SpacearXiv에 게시된 'Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space' 논문에 대한 자세한 리뷰입니다.#Review#Hierarchical Language Model#Concept-Level Reasoning#Dynamic Segmentation#Adaptive Computation#Scaling Laws#Maximal Update Parametrization#Next-Token Prediction#Flash Attention2026년 1월 1일댓글 수 로딩 중
[triton] AMD: LLVM 백엔드에 커스텀 스케줄러 옵션 추가로 메모리 바운드 커널 최적화AMD HIP 백엔드에 iterative-ilp 스케줄러를 선택할 수 있는 schedule_hint 옵션을 추가하여 메모리 바운드 Flash Attention 커널 성능을 개선한 분석.#Triton#AMD#LLVM#Scheduler#Flash Attention#Performance2025년 11월 14일댓글 수 로딩 중
[논문리뷰] Why Low-Precision Transformer Training Fails: An Analysis on Flash AttentionarXiv에 게시된 'Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention' 논문에 대한 자세한 리뷰입니다.#Review#Low-Precision Training#Flash Attention#Transformer#Numerical Stability#BF16#Rounding Error#Gradient Bias#Deep Learning Optimization2025년 10월 9일댓글 수 로딩 중