[논문리뷰] Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing최근 Multi-modal Large Language Models (MLLMs)의 발전은 일반 목적의 비디오 이해 분야에서 상당한 진전을 가져왔습니다. 그러나 이러한 모델들은 long-form, high-resolution 비디오를 처리하는 데 심각한 어려움을 겪고 있습니다.#Review#Video Understanding#Multi-modal Large Language Models (MLLMs)#Vision Transformers (ViTs)#Autoregressive Gazing#Token Reduction#Multi-scale Patches#High-Resolution Video#Long-Form Video2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Dynamic Chunking Diffusion Transformer본 논문은 Diffusion Transformer (DiT)에서 고정된 패치화를 학습된 동적 청킹(dynamic chunking) 메커니즘 으로 대체하여 이미지 생성 품질을 유지하면서 연산 효율성을 극대화 하는 것을 목표로 합니다.#Review#Diffusion Transformer#Dynamic Chunking#Adaptive Patching#Image Generation#Computational Efficiency#Token Reduction#Spatial Segmentation#Load Balancing2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Focused Chain-of-Thought: Efficient LLM Reasoning via Structured Input Information본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 과도한 토큰 사용과 높은 추론 지연 시간 문제를 해결하고자 합니다. 훈련 없이(training-free) 입력 중심의 접근 방식을 통해 LLM의 추론 효율성을 높이고자 합니다.#Review#LLM Reasoning#Chain-of-Thought#Prompt Engineering#Efficiency#Structured Input#Information Extraction#Cognitive Psychology#Token Reduction2025년 11월 30일댓글 수 로딩 중