#RoPE

12개의 포스트

[논문리뷰] PianoKontext: Expressive Performance Rendering from Deadpan Context

본 논문은 기존의 음악 생성 모델이 표현적 타이밍(Expressive timing)과 다성 음악(Polyphonic music)의 복잡성을 제대로 모델링하지 못하는 문제를 해결하기 위해 PianoKontext를 제안한다.

#Review #Expressive Performance Rendering #Flow Matching #Latent Diffusion #Dynamic Time Warping #Music2Latent #DiT #RoPE

2026년 6월 11일

[논문리뷰] Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation

본 논문은 autoregressive 비디오 생성 모델에서 발생하는 무제한적인 KV-cache 성장과 시간적 위치 임베딩 오버플로우 문제를 해결하는 것을 목적으로 한다.

#Review #Autoregressive Video Generation #KV-cache #Memory Queries #RoPE #Long-term Consistency

2026년 6월 3일

[논문리뷰] EndPrompt: Efficient Long-Context Extension via Terminal Anchoring

본 논문은 LLM의 컨텍스트 윈도우 확장이 요구하는 막대한 계산 자원과 데이터 수집의 어려움을 해결하기 위해 EndPrompt를 제안합니다.

#Review #Long-Context Extension #EndPrompt #Terminal Anchoring #Positional Interpolation #RoPE #Transformer #Sparse Supervision

2026년 5월 18일

[sglang] LTX2 스플릿 로터리 커널 최적화: 헤드 배치 처리로 성능 2배 향상

LTX2 스플릿 로터리 커널에서 헤드 배치 처리를 도입하여 성능을 2배 향상시킨 코드 최적화 분석.

#Triton #Performance Optimization #LLM Kernel #RoPE #SGLang

2026년 5월 16일

[SGLang] RoPE 변형: 로타리 위치 인코딩의 다양한 구현

SGLang의 RoPE 구현을 분석한다. 기본 RoPE, NTK-aware Scaling, YaRN, Dynamic NTK 등 다양한 변형의 구현, 위치 인코딩이 긴 컨텍스트에 미치는 영향을 코드와 함께 살펴본다.

#sglang #RoPE #Rotary Position Encoding #Position Embedding

2026년 4월 14일

[논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

본 논문은 기존 KV Cache 압축 기법들이 post-RoPE 공간의 제한된 관측치에 의존하여 발생하는 불안정성 문제를 해결하고자 합니다. 기존 방식들은 회전이 적용된 post-RoPE 쿼리를 사용하므로, 대표성 있는 쿼리 확보가 어려워 중요한 토큰이 조기에 삭제되는 현상이 빈번합니다 .

#Review #KV Cache #LLM #Attention #RoPE #Compression #Reasoning

2026년 4월 6일

[논문리뷰] CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

본 논문은 현대의 Vision-Language Models (VLMs)가 단일 비전 인코더(대체로 CLIP 기반)에 의존함에 따라 발생하는 세밀한 시각적 이해 및 위치 파악(Grounding) 능력의 한계를 해결하고자 합니다.

#Review #Vision-Language Models #Multi-Encoder Fusion #Entropy-Guided Selection #Orthogonal Layer #RoPE #Visual Grounding #Multimodal Understanding

2026년 4월 5일

[sglang] fused_qknorm_rope 최적화 - interleave RoPE에서 sincosf 중복 제거

interleave 방식 RoPE에서 인접 요소 쌍이 동일한 frequency를 공유하는 점을 활용하여 sincosf 호출 횟수를 절반으로 줄임

#SGLang #JIT Kernel #CUDA #RoPE #Performance

2026년 4월 1일

[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가

SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.

#SGLang #CUDA #Diffusion #RoPE #RMSNorm #Kernel Fusion #GPU Optimization

2026년 3월 27일

[논문리뷰] Group Representational Position Encoding

Transformer 모델의 필수 요소인 위치 인코딩(Positional Encoding) 메커니즘들을 군 이론(Group Theory) 기반의 통합된 프레임워크 로 제시하고, 기존의 주요 기법인 RoPE 와 ALiBi 를 특수 사례로 포괄하며, 더 넓고 원칙적인 설계 공간을 제공하는 것을 목표로 합니다.

#Review #Positional Encoding #Group Theory #Transformer #RoPE #ALiBi #Lie Groups #Multiplicative PE #Additive PE

2025년 12월 8일

[논문리뷰] MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

본 논문은 단일 샷(single-shot) 비디오 생성 기술의 한계를 넘어, 유연한 샷 배열, 일관된 내러티브, 그리고 텍스트 프롬프트 이상의 제어 가능성을 갖춘 다중 샷 비디오 생성 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Multi-Shot Video Generation #Controllable Video Generation #Diffusion Models #RoPE #Spatiotemporal Consistency #Reference Injection #Data Curation Framework

2025년 12월 2일

[논문리뷰] Behind RoPE: How Does Causal Mask Encode Positional Information?

본 논문은 Transformer 디코더 에서 Rotary Positional Embeddings (RoPE) 와 같은 명시적인 위치 인코딩 외에 인과 마스크(causal mask) 가 어떻게 위치 정보를 인코딩하는지 그 메커니즘을 규명하는 것을 목표로 합니다.

#Review #Transformer Decoder #Causal Mask #Positional Encoding #RoPE #Attention Mechanism #Length Generalization #Large Language Models

2025년 9월 26일