#Transformers

12개의 포스트

[transformers] [Hugging Face] n-to-1 커널 퓨전과 파라미터 변환: KernelConfig API의 진화

Transformers 모델의 성능 극대화를 위한 모듈 퓨전 및 가중치 레이아웃 변환 자동화 기법 분석

#HuggingFace #Transformers #KernelFusion #PyTorch #Optimization

2026년 6월 9일

[transformers] Hugging Face Transformers: Slow Tokenizer 성능 회귀 문제 해결하기

PreTrainedTokenizer의 O(T*N*logN) 성능 저하 문제를 O(T)로 복구한 최적화 사례 분석

#HuggingFace #Transformers #Python #Optimization #Tokenizer

2026년 6월 3일

[transformers] Hugging Face Transformers: Continuous Batching에 Tensor Parallelism 도입하기

Continuous Batching 환경에서 Tensor Parallelism을 지원하여 대규모 언어 모델의 추론 성능을 극대화하는 최적화 기법 분석.

#HuggingFace #Transformers #TensorParallelism #ContinuousBatching #LLM

2026년 5월 18일

[논문리뷰] The Scaling Properties of Implicit Deductive Reasoning in Transformers

본 논문은 depth-bounded Transformer가 내재적(implicit)으로 수행하는 연역적 추론의 확장성(scaling) 한계를 규명합니다.

#Review #Transformers #Implicit Deductive Reasoning #Horn Clauses #Chain-of-Thought #Scaling Properties #Shortcut Learning #Algorithmic Alignment

2026년 5월 7일

[transformers] Hugging Face Transformers: PreTrainedTokenizer의 성능 병목 해결기

convert_ids_to_tokens 호출 시 매번 반복되던 all_special_ids 연산을 캐싱하여 성능을 300배 이상 개선한 사례를 분석합니다.

#HuggingFace #Transformers #Python #Optimization #Performance

2026년 5월 4일

[axolotl] transformers 5.3.0 / TRL 0.29.0 업그레이드: API 변경 대응과 deprecated 설정 처리

transformers 5.3.0과 TRL 0.29.0으로의 메이저 의존성 업그레이드에서 발생하는 breaking change를 체계적으로 처리한 사례를 분석합니다.

#Axolotl #Transformers #TRL #Dependency Upgrade #Migration

2026년 3월 16일

[논문리뷰] Memory Caching: RNNs with Growing Memory

본 논문은 고정된 메모리 크기 로 인해 장문 시퀀스에서 과거 정보를 잊어버리는 Recurrent Neural Networks (RNNs)의 한계를 해결하고자 합니다.

#Review #Recurrent Neural Networks #Memory Caching #Sequence Modeling #Long-Context #Transformers #Linear Attention #Language Modeling #Retrieval Tasks

2026년 3월 1일

[논문리뷰] Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training

본 연구는 대규모 언어 모델(LLM) 훈련 시 고차원, 비볼록(non-convex) 손실 함수 공간에서 기존 경사 하강법(Gradient Descent) 의 한계(지역 최적해 수렴, 느린 수렴 속도)를 극복하고자 합니다.

#Review #Quantum Computing #Optimization #Machine Learning #Transformers #Gradient Descent #Superposition #Large Language Models #Hybrid Quantum-Classical

2025년 11월 13일

[논문리뷰] The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms

이 논문은 기존 연구에서 다루지 않았던 트랜스포머 아키텍처 의 핵심 구성 요소인 Multi-Head Attention (MHA) 메커니즘 에 대한 Strong Lottery Ticket Hypothesis (SLTH) 를 이론적으로 확립하는 것을 목표로 합니다.

#Review #Strong Lottery Ticket Hypothesis #Multi-Head Attention #Transformers #Neural Network Pruning #Overparameterization #Weight Initialization #Model Compression

2025년 11월 9일

[논문리뷰] Robot Learning: A Tutorial

이 튜토리얼은 현대 로봇 학습의 발전 과정을 종합적으로 안내하여, 연구자와 실무자가 로봇 학습 분야의 개념적 이해와 실제 도구를 습득하도록 돕는 것을 목표로 합니다.

#Review #Robot Learning #Reinforcement Learning #Imitation Learning #Behavioral Cloning #Vision-Language-Action Models #Diffusion Models #Transformers #LeRobot

2025년 10월 15일

[논문리뷰] Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls

본 논문은 Transformer 기반 언어 모델이 다중 자릿수 곱셈과 같은 겉보기에 간단한 알고리즘 태스크를 학습하는 데 실패하는 이유를 탐구합니다.

#Review #Transformers #Multiplication #Long-Range Dependencies #Implicit Chain-of-Thought #Attention Mechanisms #Inductive Bias #Reverse Engineering

2025년 10월 2일

[Open WebUI] 리랭킹 모델의 pad_token_id 미설정 시 배치 처리 실패 수정

pad_token_id가 없는 리랭킹 모델에서 배치 크기 1 초과 시 발생하는 오류를 eos_token_id 폴백으로 해결한 수정 분석.

#Open WebUI #Python #Bug Fix #Reranking #Transformers

2025년 10월 7일