#Transformer Decoder

3개의 포스트

[논문리뷰] AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)이 멀티모달 생성을 위해 외부 전문가 구성 요소(예: 확산 디코더)에 의존하는 한계를 극복하고자 합니다.

#Review #Autoregressive Models #Multimodal AI #Any-to-Any Generation #Unified Model #Speech Generation #Image Generation #Transformer Decoder #Real-time Streaming

2026년 1월 26일

[논문리뷰] Behind RoPE: How Does Causal Mask Encode Positional Information?

본 논문은 Transformer 디코더 에서 Rotary Positional Embeddings (RoPE) 와 같은 명시적인 위치 인코딩 외에 인과 마스크(causal mask) 가 어떻게 위치 정보를 인코딩하는지 그 메커니즘을 규명하는 것을 목표로 합니다.

#Review #Transformer Decoder #Causal Mask #Positional Encoding #RoPE #Attention Mechanism #Length Generalization #Large Language Models

2025년 9월 26일

[논문리뷰] IAUNet: Instance-Aware U-Net

본 논문은 생의학 이미징 분야에서 널리 사용되는 U-Net 아키텍처와 인스턴스 분할 태스크 간의 격차를 해소하는 것을 목표로 합니다. 특히, 기존 쿼리 기반 모델이 단일 스케일 특징에 의존하는 한계를 극복하고 U-Net의 스킵 연결에서 얻는 다중 스케일 컨텍스트를 활용하여 복잡한 세포 분할의 정밀도를 높이고자 합니다.

#Review #Instance Segmentation #U-Net #Query-based Model #Transformer Decoder #Biomedical Imaging #Cell Segmentation #Deep Learning

2025년 8월 7일