[논문리뷰] Attention Sinks in Diffusion Language ModelsDiffusion Language Models (DLMs)의 내부 메커니즘, 특히 다른 트랜스포머 아키텍처에서 관찰된 '어텐션 싱크(attention sink)' 현상 이 DLMs에서도 발생하는지 여부와 그 특성을 규명하는 것을 목표로 합니다.#Review#Diffusion Language Models#Attention Sinks#Transformer Architecture#Masked Language Modeling#Bidirectional Attention#Generative Models#Robustness#Dynamic Attention2025년 10월 23일댓글 수 로딩 중