#Positional Encoding

13개의 포스트

[논문리뷰] Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Multimodal Large Language Models (MLLMs)는 Offline Video Understanding Task에서 뛰어난 성능을 보였지만, Live Broadcasting, Monitoring, Robotic Assistants와 같이 continuously arriving video stream에 대한 Online Multi-turn Interaction에서는 약점을 드러냅니다.

#Review #Streaming Video Reasoning #Multi-Turn Interaction #Segment-Level Memory #Causal Mask #Positional Encoding #Dual KV Cache #Multimodal Large Language Models

2026년 3월 15일

[논문리뷰] Geometry-Aware Rotary Position Embedding for Consistent Video World Model

본 논문은 카메라 제어가 가능한 시각적 월드 모델(predictive visual world models)이 긴 궤적(long trajectories)에서 안정적인 장면 구조를 유지하지 못하고 기하학적 표류(geometric drift)를 겪는 문제 를 해결하는 것을 목표로 합니다.

#Review #Video World Model #Generative AI #Transformer #Positional Encoding #3D Consistency #View Synthesis #Sparse Attention #Loop Closure

2026년 2월 17일

[논문리뷰] Group Representational Position Encoding

Transformer 모델의 필수 요소인 위치 인코딩(Positional Encoding) 메커니즘들을 군 이론(Group Theory) 기반의 통합된 프레임워크 로 제시하고, 기존의 주요 기법인 RoPE 와 ALiBi 를 특수 사례로 포괄하며, 더 넓고 원칙적인 설계 공간을 제공하는 것을 목표로 합니다.

#Review #Positional Encoding #Group Theory #Transformer #RoPE #ALiBi #Lie Groups #Multiplicative PE #Additive PE

2025년 12월 8일

[논문리뷰] Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

현재 RoPE(Rotary Position Embeddings) 구현이 어텐션 스코어 계산 시 복소수 값의 내적에서 실수부만 사용 하고 허수부를 버려, 장문맥 의존성 모델링에 중요한 관계형 정보 손실 이 발생하는 문제를 해결하고자 합니다.

#Review #Rotary Position Embedding #Long-Context LLMs #Complex-Valued Neural Networks #Self-Attention #Positional Encoding #Information Loss #Length Extrapolation

2025년 12월 8일

[논문리뷰] UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

본 논문은 이미지 diffusion transformer 모델이 훈련된 해상도를 넘어선 이미지를 생성할 때 발생하는 콘텐츠 반복 및 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformers #Resolution Extrapolation #Positional Encoding #Frequency Analysis #Adaptive Attention #High-Resolution Image Generation #Image Quality #Content Repetition

2025년 12월 4일

[논문리뷰] BulletTime: Decoupled Control of Time and Camera Pose for Video Generation

본 논문은 기존 비디오 확산 모델의 고질적인 문제점인 장면 역학과 카메라 모션 간의 결합을 해소하고, 시간과 카메라 포즈를 명시적으로 분리하여 제어 하는 4D-controllable 비디오 생성 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Models #4D Control #Camera Pose Control #Time Control #Positional Encoding #Adaptive Normalization #Synthetic Dataset

2025년 12월 4일

[논문리뷰] CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

본 논문은 기존 확산 모델이 구조화된 다단계 시나리오, 특히 가변 길이 레시피 이미지 생성에서 일관성 및 유연성 부족을 겪는 문제를 해결합니다. 유연하고 일관되며 의미론적으로 분리된 다단계 레시피 이미지 생성을 위한 통합 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Multi-step Image Generation #Recipe Illustration #Diffusion Models #Consistent Generation #Regional Control #Positional Encoding #Ingredient Consistency #Procedural Content Generation

2025년 12월 3일

[논문리뷰] UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

본 논문은 기존 Diffusion Transformer(DiT) 모델을 다양한 종횡비(AR)의 4K 해상도 로 확장할 때 발생하는 한계를 극복하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Diffusion Transformers #4K Resolution #Aspect Ratio Extrapolation #Data-Model Co-Design #VAE Post-training #Positional Encoding #Diffusion Models

2025년 11월 24일

[논문리뷰] Behind RoPE: How Does Causal Mask Encode Positional Information?

본 논문은 Transformer 디코더 에서 Rotary Positional Embeddings (RoPE) 와 같은 명시적인 위치 인코딩 외에 인과 마스크(causal mask) 가 어떻게 위치 정보를 인코딩하는지 그 메커니즘을 규명하는 것을 목표로 합니다.

#Review #Transformer Decoder #Causal Mask #Positional Encoding #RoPE #Attention Mechanism #Length Generalization #Large Language Models

2025년 9월 26일

[논문리뷰] Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views

본 논문은 3D 포인트 클라우드 학습에서 기존 단일 뷰(single-view) 기반 마스킹 재구성(masked reconstruction) 방식의 한계를 극복하고, 더 다양하고 도전적인 두 뷰(two-view) 기반 사전 학습 패러다임 을 탐구하는 것을 목표로 합니다.

#Review #Point Cloud Learning #Self-Supervised Learning #Cross Reconstruction #Decoupled Views #Generative Models #Positional Encoding #3D Vision

2025년 9월 3일

[논문리뷰] ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding

Video MLLM(Multimodal Large Language Models)이 긴 비디오에서 보이는 Semantic Aggregation Hallucination (SAH) 문제를 해결하는 데 목표를 둡니다.

#Review #Long Video Understanding #Hallucination #Semantic Aggregation #Video MLLM #Benchmark #DPO #Positional Encoding #VideoQA

2025년 9월 3일

[논문리뷰] Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context

기존 연구에서 언어 모델(LM)이 인-컨텍스트(in-context) 엔티티 바인딩(entity binding)을 주로 위치 메커니즘 으로 수행한다고 보았으나, 엔티티 수가 증가하는 복잡한 시나리오에서는 이 메커니즘이 중간 위치에서 불안정해지는 'lost-in-the-middle' 문제를 발견했습니다.

#Review #Language Models #In-Context Learning #Entity Binding #Mechanistic Interpretability #Causal Abstraction #Long-Context Reasoning #Positional Encoding #Information Retrieval

2025년 10월 8일

[논문리뷰] DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion

본 논문은 Diffusion Transformer (DiT) 모델을 재훈련 없이 초고해상도 이미지(예: 16M+ 픽셀 )를 생성할 수 있도록 하는 것을 목표로 합니다.

#Review #Diffusion Models #Transformer Architecture #Positional Encoding #High-Resolution Image Generation #Extrapolation #Dynamic Adaptation #Training-Free

2025년 10월 24일