[논문리뷰] LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation최근 Diffusion Model의 발전으로 Text-to-Video 생성 능력이 크게 향상되어, 전경(foreground)과 배경(background) 요소에 대한 fine-grained control을 통해 개인화된 콘텐츠 생성이 가능해졌습니다.#Review#Personalized Video Generation#Multi-Subject#Face-Attribute Alignment#Diffusion Models#Attention Mechanisms#Relational Embedding#Text-to-Video2026년 3월 22일댓글 수 로딩 중
[논문리뷰] HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images본 논문은 인간-제품 이미지 생성 시 제품 디테일의 높은 충실도(high-fidelity) 보존 을 보장하는 문제를 해결하고자 합니다.#Review#Reference-Based Inpainting#High-Fidelity Image Generation#Human-Product Images#Diffusion Models#Detail Preservation#Attention Mechanisms#Loss Functions#Dataset Construction2026년 3월 5일댓글 수 로딩 중
[논문리뷰] Reinforced Attention Learning본 논문은 기존 RL 기반 LLM 후처리 방식이 MLLM에서 시각적 추론을 위한 '생성할 내용'에만 초점을 맞추어 제한적인 성능 향상을 보이거나 심지어 성능을 저하시키는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Multimodal LLMs#Attention Mechanisms#Policy Gradient#Knowledge Distillation#Visual Grounding#Post-training2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits거대 언어 모델(LLM)이 생성하는 텍스트의 정확성 또는 오류를 스스로 인지하지 못하는 문제를 해결하고, 외부 평가자 없이 LLM 내부 작동을 통해 자체 실패를 예측할 수 있는 경량 메커니즘 을 개발하는 것을 목표로 합니다. 이는 LLM의 신뢰성, 안전성 및 효율성을 향상시키는 데 중요합니다.#Review#LLM Self-Awareness#Failure Prediction#Internal States#Attention Mechanisms#Neural Network Probes#Computational Efficiency#Zero-Shot Transfer2026년 1월 5일댓글 수 로딩 중
[논문리뷰] MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing본 논문은 3D 모핑의 난제를 해결하고자 합니다. 특히 다양한 카테고리 간의 객체에 대해 의미론적으로 일관되고 시간적으로 부드러운 변형 시퀀스를 훈련 없이 생성하는 것을 목표로 합니다. 기존 3D 모핑 방식의 한계, 즉 부정확한 대응 추정으로 인한 구조적으로 비현실적인 결과와 낮은 일반화 성능을 극복하고자 합니다.#Review#3D Morphing#Structured Latent (SLAT)#Generative Models#Attention Mechanisms#Training-Free Framework#Cross-Category Transitions#Temporal Coherence2026년 1월 4일댓글 수 로딩 중
[논문리뷰] Latent Implicit Visual Reasoning본 논문은 현재 대규모 멀티모달 모델(LMMs) 이 텍스트 중심적 추론에 치우쳐 있어 시각적 정보 처리가 많이 필요한 추론 태스크에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Large Multimodal Models (LMMs)#Visual Reasoning#Latent Tokens#Visual Bottlenecking#Implicit Learning#Task-agnostic#Attention Mechanisms2025년 12월 25일댓글 수 로딩 중
[논문리뷰] HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming고해상도 비디오 생성은 확산 모델의 제곱 복잡도 로 인해 계산적으로 병목 현상이 발생하여 실용적인 추론이 불가능하다는 문제를 해결하고자 합니다.#Review#High-Resolution Video Generation#Diffusion Models#Autoregressive#Efficiency#Caching#Attention Mechanisms#Video Streaming#Temporal Consistency2025년 12월 24일댓글 수 로딩 중
[논문리뷰] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention본 논문은 Diffusion Transformer (DiT) 모델, 특히 비디오 생성에서 긴 시퀀스 길이로 인한 어텐션의 2차 시간 복잡도 문제를 해결하고자 합니다.#Review#Diffusion Transformers#Sparse Attention#Linear Attention#Model Acceleration#Video Generation#Attention Mechanisms#Fine-tuning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] RefAM: Attention Magnets for Zero-Shot Referral Segmentation컴퓨터 비전 태스크에서 CNN의 의존성을 완전히 제거 하고, 순수한 Transformer 아키텍처 만으로 이미지 분류 성능을 달성하는 것을 목표로 합니다. 기존 CNN 기반 접근법의 한계를 극복하고 self-attention 메커니즘 이 이미지 패치 간의 관계를 효과적으로 학습할 수 있음을 증명하고자 합니다.#Review#Zero-Shot Segmentation#Referring Segmentation#Diffusion Transformers (DiTs)#Attention Mechanisms#Attention Sinks#Stop Words#Vision-Language Models#Training-Free Methods2025년 9월 29일댓글 수 로딩 중
[논문리뷰] BTL-UI: Blink-Think-Link Reasoning Model for GUI AgentAI 기반 GUI 에이전트의 상호작용 논리가 인간의 자연스러운 GUI 소통 패턴과 현저히 다르다는 근본적인 문제를 해결하고자 합니다.#Review#GUI Agent#Human-GUI Interaction#Cognitive Modeling#Reinforcement Learning#Multimodal Large Language Models#Attention Mechanisms#Action Planning2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning본 논문은 복잡한 시각 환경에서 Vision-Language Models (VLMs) 의 추론 성능이 저하되는 문제를 해결하고자 합니다.#Review#Vision-Language Models (VLMs)#Visual Reasoning#Attention Mechanisms#Contrastive Learning#Noise Suppression#Visual Complexity#Training-Free2025년 9월 9일댓글 수 로딩 중
[논문리뷰] LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer본 논문은 여러 시각적 레퍼런스와 공간적 레이아웃 정보를 활용하여 일관되고 응집력 있는 이미지를 생성하는 것을 목표로 합니다. 특히, 기존 단일 레퍼런스 확산 모델을 훈련 없이 다중 레퍼런스 시나리오로 확장하고, 개체 일관성 및 정밀한 레이아웃 제어를 동시에 달성하는 문제를 해결하고자 합니다.#Review#Multi-Image Composition#Layout Control#Diffusion Models#Transformer#Attention Mechanisms#Training-Free#Zero-Shot Generalization2025년 8월 6일댓글 수 로딩 중
[논문리뷰] On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective이 논문은 Softmax Attention 이 선형 Attention 보다 우수한 성능을 보이는 근본적인 이유를 규명하고, Softmax Attention 의 표현력과 동작 원리를 재귀 신경망(RNN) 관점에서 분석하는 것을 목표로 합니다.#Review#Softmax Attention#Linear Attention#Recurrent Neural Networks (RNNs)#Taylor Series Expansion#Attention Mechanisms#Expressiveness#Transformer Architectures2025년 8월 2일댓글 수 로딩 중
[논문리뷰] Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization본 논문은 LLM의 불투명한 추론 과정을 명확히 이해하고, 기존 RL의 균일한 크레딧 할당 방식이 중요한 추론 단계를 모호하게 만드는 문제를 해결하는 것을 목표로 합니다.#Review#LLM Reasoning#Attention Mechanisms#Reinforcement Learning#Credit Assignment#Policy Optimization#Interpretability#Preplan-and-Anchor Rhythm#Generative Models2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls본 논문은 Transformer 기반 언어 모델이 다중 자릿수 곱셈과 같은 겉보기에 간단한 알고리즘 태스크를 학습하는 데 실패하는 이유를 탐구합니다.#Review#Transformers#Multiplication#Long-Range Dependencies#Implicit Chain-of-Thought#Attention Mechanisms#Inductive Bias#Reverse Engineering2025년 10월 2일댓글 수 로딩 중
[논문리뷰] EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting기존 Transformer 기반 시계열 예측 모델들이 사용하는 temporal-agnostic 패칭 방식은 시간적 일관성을 해치고 단기 종속성을 파괴하며 훈련-추론 불일치를 야기하는 문제를 해결하고자 합니다.#Review#Time Series Forecasting#Transformer#Dynamic Patching#Entropy#Predictive Uncertainty#Adaptive Encoding#Attention Mechanisms#Causal Transformer2025년 10월 1일댓글 수 로딩 중