[transformers] [Hugging Face] n-to-1 커널 퓨전과 파라미터 변환: KernelConfig API의 진화Transformers 모델의 성능 극대화를 위한 모듈 퓨전 및 가중치 레이아웃 변환 자동화 기법 분석#HuggingFace#Transformers#KernelFusion#PyTorch#Optimization2026년 6월 9일댓글 수 로딩 중
[transformers] Hugging Face Transformers: Slow Tokenizer 성능 회귀 문제 해결하기PreTrainedTokenizer의 O(T*N*logN) 성능 저하 문제를 O(T)로 복구한 최적화 사례 분석#HuggingFace#Transformers#Python#Optimization#Tokenizer2026년 6월 3일댓글 수 로딩 중
[transformers] Hugging Face Transformers: Continuous Batching에 Tensor Parallelism 도입하기Continuous Batching 환경에서 Tensor Parallelism을 지원하여 대규모 언어 모델의 추론 성능을 극대화하는 최적화 기법 분석.#HuggingFace#Transformers#TensorParallelism#ContinuousBatching#LLM2026년 5월 18일댓글 수 로딩 중
[논문리뷰] The Scaling Properties of Implicit Deductive Reasoning in Transformers본 논문은 depth-bounded Transformer가 내재적(implicit)으로 수행하는 연역적 추론의 확장성(scaling) 한계를 규명합니다.#Review#Transformers#Implicit Deductive Reasoning#Horn Clauses#Chain-of-Thought#Scaling Properties#Shortcut Learning#Algorithmic Alignment2026년 5월 7일댓글 수 로딩 중
[transformers] Hugging Face Transformers: PreTrainedTokenizer의 성능 병목 해결기convert_ids_to_tokens 호출 시 매번 반복되던 all_special_ids 연산을 캐싱하여 성능을 300배 이상 개선한 사례를 분석합니다.#HuggingFace#Transformers#Python#Optimization#Performance2026년 5월 4일댓글 수 로딩 중
[axolotl] transformers 5.3.0 / TRL 0.29.0 업그레이드: API 변경 대응과 deprecated 설정 처리transformers 5.3.0과 TRL 0.29.0으로의 메이저 의존성 업그레이드에서 발생하는 breaking change를 체계적으로 처리한 사례를 분석합니다.#Axolotl#Transformers#TRL#Dependency Upgrade#Migration2026년 3월 16일댓글 수 로딩 중
[논문리뷰] Memory Caching: RNNs with Growing Memory본 논문은 고정된 메모리 크기 로 인해 장문 시퀀스에서 과거 정보를 잊어버리는 Recurrent Neural Networks (RNNs)의 한계를 해결하고자 합니다.#Review#Recurrent Neural Networks#Memory Caching#Sequence Modeling#Long-Context#Transformers#Linear Attention#Language Modeling#Retrieval Tasks2026년 3월 1일댓글 수 로딩 중
[논문리뷰] Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training본 연구는 대규모 언어 모델(LLM) 훈련 시 고차원, 비볼록(non-convex) 손실 함수 공간에서 기존 경사 하강법(Gradient Descent) 의 한계(지역 최적해 수렴, 느린 수렴 속도)를 극복하고자 합니다.#Review#Quantum Computing#Optimization#Machine Learning#Transformers#Gradient Descent#Superposition#Large Language Models#Hybrid Quantum-Classical2025년 11월 13일댓글 수 로딩 중
[논문리뷰] The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms이 논문은 기존 연구에서 다루지 않았던 트랜스포머 아키텍처 의 핵심 구성 요소인 Multi-Head Attention (MHA) 메커니즘 에 대한 Strong Lottery Ticket Hypothesis (SLTH) 를 이론적으로 확립하는 것을 목표로 합니다.#Review#Strong Lottery Ticket Hypothesis#Multi-Head Attention#Transformers#Neural Network Pruning#Overparameterization#Weight Initialization#Model Compression2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Robot Learning: A Tutorial이 튜토리얼은 현대 로봇 학습의 발전 과정을 종합적으로 안내하여, 연구자와 실무자가 로봇 학습 분야의 개념적 이해와 실제 도구를 습득하도록 돕는 것을 목표로 합니다.#Review#Robot Learning#Reinforcement Learning#Imitation Learning#Behavioral Cloning#Vision-Language-Action Models#Diffusion Models#Transformers#LeRobot2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls본 논문은 Transformer 기반 언어 모델이 다중 자릿수 곱셈과 같은 겉보기에 간단한 알고리즘 태스크를 학습하는 데 실패하는 이유를 탐구합니다.#Review#Transformers#Multiplication#Long-Range Dependencies#Implicit Chain-of-Thought#Attention Mechanisms#Inductive Bias#Reverse Engineering2025년 10월 2일댓글 수 로딩 중
[Open WebUI] 리랭킹 모델의 pad_token_id 미설정 시 배치 처리 실패 수정pad_token_id가 없는 리랭킹 모델에서 배치 크기 1 초과 시 발생하는 오류를 eos_token_id 폴백으로 해결한 수정 분석.#Open WebUI#Python#Bug Fix#Reranking#Transformers2025년 10월 7일댓글 수 로딩 중