[논문리뷰] Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language ModelsKang Liu이 arXiv에 게시한 'Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Streaming Video Reasoning#Multi-Turn Interaction#Segment-Level Memory#Causal Mask#Positional Encoding#Dual KV Cache#Multimodal Large Language Models2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Geometry-Aware Rotary Position Embedding for Consistent Video World ModelarXiv에 게시된 'Geometry-Aware Rotary Position Embedding for Consistent Video World Model' 논문에 대한 자세한 리뷰입니다.#Review#Video World Model#Generative AI#Transformer#Positional Encoding#3D Consistency#View Synthesis#Sparse Attention#Loop Closure2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Group Representational Position EncodingarXiv에 게시된 'Group Representational Position Encoding' 논문에 대한 자세한 리뷰입니다.#Review#Positional Encoding#Group Theory#Transformer#RoPE#ALiBi#Lie Groups#Multiplicative PE#Additive PE2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMsarXiv에 게시된 'Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Rotary Position Embedding#Long-Context LLMs#Complex-Valued Neural Networks#Self-Attention#Positional Encoding#Information Loss#Length Extrapolation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] UltraImage: Rethinking Resolution Extrapolation in Image Diffusion TransformersarXiv에 게시된 'UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Transformers#Resolution Extrapolation#Positional Encoding#Frequency Analysis#Adaptive Attention#High-Resolution Image Generation#Image Quality#Content Repetition2025년 12월 4일댓글 수 로딩 중
[논문리뷰] BulletTime: Decoupled Control of Time and Camera Pose for Video GenerationJan Ackermann이 arXiv에 게시한 'BulletTime: Decoupled Control of Time and Camera Pose for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Models#4D Control#Camera Pose Control#Time Control#Positional Encoding#Adaptive Normalization#Synthetic Dataset2025년 12월 4일댓글 수 로딩 중
[논문리뷰] CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image GenerationYi Yao이 arXiv에 게시한 'CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multi-step Image Generation#Recipe Illustration#Diffusion Models#Consistent Generation#Regional Control#Positional Encoding#Ingredient Consistency#Procedural Content Generation2025년 12월 3일댓글 수 로딩 중
[논문리뷰] UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect RatiosarXiv에 게시된 'UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Diffusion Transformers#4K Resolution#Aspect Ratio Extrapolation#Data-Model Co-Design#VAE Post-training#Positional Encoding#Diffusion Models2025년 11월 24일댓글 수 로딩 중
[논문리뷰] DyPE: Dynamic Position Extrapolation for Ultra High Resolution DiffusionarXiv에 게시된 'DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Transformer Architecture#Positional Encoding#High-Resolution Image Generation#Extrapolation#Dynamic Adaptation#Training-Free2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Mixing Mechanisms: How Language Models Retrieve Bound Entities In-ContextarXiv에 게시된 'Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context' 논문에 대한 자세한 리뷰입니다.#Review#Language Models#In-Context Learning#Entity Binding#Mechanistic Interpretability#Causal Abstraction#Long-Context Reasoning#Positional Encoding#Information Retrieval2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Behind RoPE: How Does Causal Mask Encode Positional Information?Yeyun Gong이 arXiv에 게시한 'Behind RoPE: How Does Causal Mask Encode Positional Information?' 논문에 대한 자세한 리뷰입니다.#Review#Transformer Decoder#Causal Mask#Positional Encoding#RoPE#Attention Mechanism#Length Generalization#Large Language Models2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled ViewsJunchi Yan이 arXiv에 게시한 'Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views' 논문에 대한 자세한 리뷰입니다.#Review#Point Cloud Learning#Self-Supervised Learning#Cross Reconstruction#Decoupled Views#Generative Models#Positional Encoding#3D Vision2025년 9월 3일댓글 수 로딩 중
[논문리뷰] ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video UnderstandingXuanyu Zheng이 arXiv에 게시한 'ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Long Video Understanding#Hallucination#Semantic Aggregation#Video MLLM#Benchmark#DPO#Positional Encoding#VideoQA2025년 9월 3일댓글 수 로딩 중