[논문리뷰] Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls본 논문은 Transformer 기반 언어 모델이 다중 자릿수 곱셈과 같은 겉보기에 간단한 알고리즘 태스크를 학습하는 데 실패하는 이유를 탐구합니다.#Review#Transformers#Multiplication#Long-Range Dependencies#Implicit Chain-of-Thought#Attention Mechanisms#Inductive Bias#Reverse Engineering2025년 10월 2일댓글 수 로딩 중