#Computational Efficiency

56개의 포스트

[논문리뷰] Swift Sampling: Selecting Temporal Surprises via Taylor Series

본 논문은 대부분의 비디오 데이터가 시간적으로 높은 중복성(Temporal Redundancy)을 가진다는 점에 착안하여, 제한된 frame budget 내에서 모델의 성능을 극대화할 수 있는 효율적인 프레임 선택 방식을 제안한다.

#Review #Swift Sampling #Taylor Series #Predictive Coding #Video Large Language Models #Keyframe Selection #Temporal Surprise #Computational Efficiency

2026년 5월 21일

[논문리뷰] HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention

최근 Long-context LLM 환경에서 Token-level sparse attention 은 필수적인 연산 효율화 기법으로 자리 잡았으나, 이를 위한 핵심 모듈인 indexer가 여전히 full-prefix scan 을 수행하며 𝒪(L²) 의 연산 병목을 유발합니다.

#Review #Sparse Attention #Hierarchical Indexing #Long Context #LLM Inference #Computational Efficiency #DeepSeek

2026년 3월 30일

[논문리뷰] FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models

본 논문은 Transformer 기반 world model의 O(N²) 연산 비용과 공간적 inductive bias 부재 문제를 해결하기 위해, reaction-diffusion 형태의 편미분방정식을 예측 동역학으로 사용하는 FluidWorld를 제안합니다.

#Review #World Models #Reaction-Diffusion PDE #Video Prediction #Latent Dynamics #Spatial Inductive Bias #Computational Efficiency

2026년 3월 23일

[논문리뷰] Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Video VLM은 방대한 수의 프레임을 인코딩하고, 각 프레임이 Vision Transformer (ViT)에 의해 수백 개의 Patch Token으로 분해되면서 막대한 계산 비용을 발생시킵니다.

#Review #Token Pruning #Video-Language Models (VLMs)#Computational Efficiency #Spatio-Temporal Scoring #Vision Transformers (ViT)#Large Language Models (LLM)#End-to-End Training

2026년 3월 18일

[논문리뷰] Dynamic Chunking Diffusion Transformer

본 논문은 Diffusion Transformer (DiT)에서 고정된 패치화를 학습된 동적 청킹(dynamic chunking) 메커니즘 으로 대체하여 이미지 생성 품질을 유지하면서 연산 효율성을 극대화 하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Dynamic Chunking #Adaptive Patching #Image Generation #Computational Efficiency #Token Reduction #Spatial Segmentation #Load Balancing

2026년 3월 8일

[논문리뷰] LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

본 논문은 낮은 컴퓨팅 예산 으로 장시간 비디오를 효율적으로 이해하는 과제를 해결하는 것을 목표로 합니다.

#Review #Long Video Understanding #MLLM Agent #Active Learning #Reinforcement Learning #Chain-of-Thought #Video Navigation #Computational Efficiency

2026년 3월 1일

[논문리뷰] Test-Time Training with KV Binding Is Secretly Linear Attention

논문은 TTT(Test-Time Training) with KV binding이 단순히 테스트-타임 메모리화 또는 온라인 메타-러닝 메커니즘이라는 기존 해석에 이의를 제기 하고, 대신 TTT가 선형 어텐션(linear attention) 연산자 의 한 형태로 재해석될 수 있음을 증명하는 것을 목표로 합니다.

#Review #Test-Time Training #KV Binding #Linear Attention #Sequence Modeling #Model Interpretation #Computational Efficiency #Dynamic Adaptation

2026년 2월 24일

[논문리뷰] CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

본 논문은 텍스트 기반 LLM의 선형적인 컨텍스트 길이 증가와 그에 따른 계산 비용 문제로 인한 코드 이해의 비효율성을 해결하고자 합니다.

#Review #Vision Language Models #Code Understanding #Visual Code Representation #Code Compression #Computational Efficiency #Multimodal LLMs #Software Engineering

2026년 2월 3일

[논문리뷰] ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

본 연구는 LLM의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 높은 계산 비용 과 추론 비효율성 을 해결하고자 합니다.

#Review #Latent Reasoning #Chain-of-Thought #Variational Autoencoder #Visual-Text Compression #LLMs #Multi-modal Reasoning #Computational Efficiency

2026년 2월 1일

[논문리뷰] A Pragmatic VLA Foundation Model

이 논문은 로봇 조작을 위한 Vision-Language-Action (VLA) 파운데이션 모델 이 다양한 작업과 플랫폼에서 비용 효율적으로 일반화되는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Model #Robotics #Foundation Models #Multi-Embodiment Learning #Data Scaling #Computational Efficiency #Real-world Deployment

2026년 1월 27일

[논문리뷰] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

비디오 Diffusion Transformer의 긴 입력 시퀀스로 인해 발생하는 높은 계산 지연 시간 문제를 해결하고, 기존의 스파스 어텐션 방식이 가진 제한된 스파시티 또는 과도한 학습 오버헤드 의 한계를 극복하고자 합니다.

#Review #Video Diffusion Models #Sparse Attention #Linear Attention #Computational Efficiency #Transformer Tuning #Video Generation #LoRA #Gating Mechanism

2026년 1월 25일

[논문리뷰] Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

본 논문은 Chain-of-Thought (CoT) 프롬프팅의 지나친 장황함으로 인한 높은 연산 오버헤드 와 중간 추론 과정의 불투명성 문제를 해결하고자 합니다.

#Review #Chain-of-Thought (CoT)#Large Language Models (LLMs)#Vision Language Models (VLMs)#Latent Reasoning #Visual Modality #Image Rendering #Computational Efficiency #Knowledge Distillation

2026년 1월 21일

[논문리뷰] FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

본 논문은 고해상도 UI 스크린샷에서 발생하는 수천 개의 시각 토큰으로 인한 Vision-Language Models (VLMs) 의 UI Grounding 작업의 높은 계산 오버헤드와 주의 분산 문제를 해결하는 것을 목표로 합니다.

#Review #UI Grounding #Visual Token Reduction #Position-Preserving #Vision-Language Models (VLMs)#Saliency Scoring #Computational Efficiency #Human-Computer Interaction

2026년 1월 14일

[논문리뷰] Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering

본 논문은 확산 모델 기반 비디오 생성의 높은 계산 비효율성 문제를 해결하고, 정적 장면에 대한 카메라 제어 비디오 생성 을 위한 효율적인 프레임워크를 제안하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Models #3D Reconstruction #3D Gaussian Splatting #Camera-Controlled #Sparse Keyframes #Real-time #Computational Efficiency

2026년 1월 14일

[논문리뷰] GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

대규모 추론 모델(LRMs)의 다단계 사고 체인 생성에서 발생하는 막대한 추론 지연 및 계산 비용 문제를 해결하는 것이 목표입니다. 기존 협업 추론 방식들이 도입하는 비효율적인 오버헤드를 줄이면서, 각 추론 단계의 난이도를 효과적으로 예측하여 적절한 모델(경량 또는 대규모)을 할당하는 방법을 모색합니다.

#Review #Collaborative Inference #Large Reasoning Models (LRMs)#Inference Latency #Step-wise Routing #Initial Token Entropy #Dynamic Routing #Computational Efficiency

2026년 1월 12일

[논문리뷰] Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

본 연구는 7B 파라미터의 소규모 언어 모델(SLM)인 Falcon-H1R 이 대규모 모델(2배에서 7배 더 큼)과 경쟁하거나 능가하는 추론 성능을 달성할 수 있음을 입증하는 것을 목표로 합니다.

#Review #Reasoning #Small Language Models (SLMs)#Hybrid Architecture #Test-Time Scaling (TTS)#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#DeepConf #Computational Efficiency

2026년 1월 5일

[논문리뷰] Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits

거대 언어 모델(LLM)이 생성하는 텍스트의 정확성 또는 오류를 스스로 인지하지 못하는 문제를 해결하고, 외부 평가자 없이 LLM 내부 작동을 통해 자체 실패를 예측할 수 있는 경량 메커니즘 을 개발하는 것을 목표로 합니다. 이는 LLM의 신뢰성, 안전성 및 효율성을 향상시키는 데 중요합니다.

#Review #LLM Self-Awareness #Failure Prediction #Internal States #Attention Mechanisms #Neural Network Probes #Computational Efficiency #Zero-Shot Transfer

2026년 1월 5일

[논문리뷰] SpotEdit: Selective Region Editing in Diffusion Transformers

본 논문은 기존 Diffusion Transformer 기반 이미지 편집 모델들이 변경되지 않은 영역까지 포함하여 전체 이미지를 일관적으로 처리하고 디노이징하는 방식의 비효율성과 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Image Editing #Selective Editing #Computational Efficiency #Training-Free #Region-Aware #Perceptual Similarity

2025년 12월 29일

[논문리뷰] Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

본 논문은 Mixture-of-Experts (MoE) 모델에서 라우터의 결정이 개별 전문가의 실제 역량과 충분히 연동되지 않아 발생하는 성능 한계를 해결하고자 합니다. 라우터와 전문가 간의 약한 결합 문제를 개선하여 모델 성능을 향상시키는 동시에 효율성을 유지하는 가벼운 보조 손실 함수를 제안하는 것이 목표입니다.

#Review #Mixture-of-Experts (MoE)#Router-Expert Coupling #Auxiliary Loss #Expert Specialization #Large Language Models (LLMs)#Computational Efficiency

2025년 12월 29일

[논문리뷰] Multi-view Pyramid Transformer: Look Coarser to See Broader

본 논문은 대규모 3D 장면을 수십에서 수백 개의 이미지로부터 단일 순방향 패스로 재구성하는 트랜스포머 아키텍처의 확장성 문제 를 해결하는 것을 목표로 합니다.

#Review #Multi-view Transformer #3D Reconstruction #Hierarchical Attention #Computational Efficiency #3D Gaussian Splatting #Novel View Synthesis #Scalability

2025년 12월 8일

[논문리뷰] Glance: Accelerating Diffusion Models with 1 Sample

본 논문은 이미지 생성 확산 모델의 높은 계산 비용과 많은 추론 단계를 해결하고자 합니다. 특히, 모델의 재훈련 비용과 일반화 성능 저하 없이, 단일 샘플만으로도 효율적인 가속화와 강력한 일반화 능력을 갖춘 경량화된 솔루션을 제공하는 것을 목표로 합니다.

#Review #Diffusion Models #Acceleration #Distillation #LoRA #Few-shot Learning #Phase-aware #Image Generation #Computational Efficiency

2025년 12월 2일

[논문리뷰] The Collapse of Patches

본 연구는 이미지 내 패치들 간의 상호 의존성을 분석하여 '패치 붕괴(patch collapse)' 라는 새로운 개념을 제안하고, 이를 통해 이미지의 불확실성을 가장 효율적으로 줄이는 최적의 패치 실현 순서 를 파악하는 것을 목표로 합니다.

#Review #Patch Collapse #Image Generation #Image Classification #Masked Image Modeling #Vision Transformers #PageRank #Uncertainty Reduction #Computational Efficiency

2025년 11월 30일

[논문리뷰] Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration

본 논문은 3D Diffusion 모델의 느린 추론 속도 문제를 해결하는 것을 목표로 합니다.

#Review #3D Geometry Synthesis #Diffusion Models #Acceleration #Caching #Training-free #Flow Matching #Voxel Stabilization #Computational Efficiency

2025년 11월 30일

[논문리뷰] DiP: Taming Diffusion Models in Pixel Space

본 연구는 확산 모델(Diffusion Models)의 근본적인 문제인 생성 품질과 계산 효율성 간의 절충점 을 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Pixel Space #Latent Diffusion Models (LDMs)#Diffusion Transformer (DiT)#Patch Detailer Head #Global-Local Modeling #Computational Efficiency #ImageNet

2025년 11월 30일

[논문리뷰] Latent Collaboration in Multi-Agent Systems

본 논문은 기존 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)이 텍스트 기반 추론 및 통신에 의존하여 발생하는 비효율성과 정보 손실 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Large Language Models #Latent Space #Latent Reasoning #Latent Communication #KV Cache #Computational Efficiency #Training-Free

2025년 11월 26일

[논문리뷰] LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

본 논문은 비디오 생성 Diffusion Transformers (DiT)의 Quadratic attention complexity 로 인한 과도한 지연 시간 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Sparse Attention #Temporal Coherence #Video Generation #Computational Efficiency #FlashAttention #CUDA Kernels

2025년 11월 16일

[논문리뷰] Experience-Guided Adaptation of Inference-Time Reasoning Strategies

본 논문은 에이전트형 AI 시스템이 훈련 후 추론 시 상호작용을 기반으로 문제 해결 방식을 적응시키는 근본적인 과제를 해결하고자 합니다.

#Review #Adaptive AI #Inference-Time Adaptation #Reasoning Strategies #Meta-Learning #LLM-based Agents #Dynamic Strategy Generation #Continual Learning #Computational Efficiency

2025년 11월 16일

[논문리뷰] Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads

이 논문은 대규모 언어 모델(LLM)의 다단계 추론 과정 에서 각 단계의 정확성을 효율적으로 검증하는 문제를 다룹니다.

#Review #LLM Reasoning Verification #Uncertainty Quantification (UQ)#UHeads #Process Reward Models (PRMs)#Chain-of-Thought (CoT)#Self-Supervised Learning #Computational Efficiency #Domain Generalization

2025년 11월 10일

[논문리뷰] Continuous Autoregressive Language Models

Large Language Models (LLMs)의 비효율적인 순차적, 토큰 단위 생성 과정의 근본적인 한계를 극복하는 것이 목표입니다. 본 연구는 이산 토큰 예측에서 연속 벡터 예측 으로 패러다임을 전환하여, 각 생성 단계의 의미론적 대역폭을 증가 시킴으로써 LLM의 스케일링 및 계산 효율성을 향상시키고자 합니다.

#Review #Large Language Models (LLMs)#Continuous Representation #Autoencoder #Likelihood-Free Modeling #Energy-Based Models #Next-Vector Prediction #Computational Efficiency #Temperature Sampling

2025년 11월 9일

[논문리뷰] MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

본 연구는 기존 비전-언어 모델(VLM)이 고해상도 문서 처리 시 겪는 토큰 중복, 높은 계산 비용, 환각 문제 등의 한계를 극복하는 것을 목표로 합니다. 특히, 전반적인 계산 효율성을 유지하면서도 복잡하고 밀도 높은 문서의 구조 및 내용을 정확하게 파싱하기 위한 효율적인 디커플링 비전-언어 모델 을 제안합니다.

#Review #Document Parsing #Vision-Language Model #High-Resolution #Two-Stage Inference #Layout Analysis #Content Recognition #Data Engine #Computational Efficiency

2025년 9월 29일

[논문리뷰] Thinking While Listening: Simple Test Time Scaling For Audio Classification

본 논문은 오디오 분류 성능 향상을 위해 신경망 모델이 '듣는 동안 생각하는(thinking while listening)' 능력을 갖추도록 하는 프레임워크를 제안합니다.

#Review #Audio Classification #Test-Time Scaling #Reasoning Traces #Large Language Models (LLMs)#Transformer Architectures #Zero-shot Reasoning #Computational Efficiency

2025년 9월 26일

[논문리뷰] SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

본 논문은 최첨단 생성 모델, 특히 Rectified Flow 모델 의 높은 연산 요구량으로 인해 발생하는 접근성 문제를 해결하고자 합니다.

#Review #Generative AI #Image Generation #Diffusion Models #Rectified Flow #Model Distillation #Few-Step Generation #Computational Efficiency #Prompt Alignment

2025년 9월 26일

[논문리뷰] Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation

통합 멀티모달 모델에서 확산 디노이징과 자기회귀 디코딩의 반복적인 프로세스로 발생하는 상당한 계산 오버헤드 를 해결하는 것이 주 목표입니다. Hyper-Bagel 이라는 통합 가속 프레임워크를 제안하여 멀티모달 이해 및 생성 작업을 동시에 가속화하면서 원본 모델의 고품질 출력을 유지하고자 합니다.

#Review #Multimodal AI #Acceleration Framework #Speculative Decoding #Diffusion Distillation #Unified Models #Text-to-Image Generation #Image Editing #Computational Efficiency

2025년 9월 24일

[논문리뷰] When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs

본 논문은 시각 질문 답변(VQA) 태스크에서 Small Vision-Language Models (S-VLMs) 의 성능을 향상시키는 것을 목표로 합니다.

#Review #VQA #Small VLMs #Large VLMs #Knowledge Transfer #Pseudo-labeling #Label-Free Learning #Model Parity Alignment #Computational Efficiency

2025년 9월 23일

[논문리뷰] CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

본 논문은 기존 Vision-Language-Action (VLA) 모델의 높은 계산 오버헤드 와 모달리티 간의 의미론적 불일치(semantic fragmentation) 문제를 해결하여, VLA 모델의 확장성과 배포 가능성을 제한하는 요소를 극복하는 것을 목표로 합니다.

#Review #Vision-Language-Action Model #Sparsification #Instruction-Driven Routing #Cognition-Aligned AI #Robotics #Computational Efficiency #Multimodal AI

2025년 8월 29일

[논문리뷰] ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

대규모 언어 모델(LLMs)의 CoT(Chain-of-Thought) 추론 능력은 뛰어나지만, 실제 배포 시 연산 비용을 효율적으로 제어하는 것이 어렵습니다.

#Review #LLMs #Controllable Reasoning #Computational Efficiency #Reinforcement Learning #Supervised Fine-tuning #Reasoning Compression #Budget-Aware Training

2025년 8월 27일

[논문리뷰] Deep Think with Confidence

본 논문은 LLM의 추론 태스크에서 self-consistency (다수결 투표) 방식의 한계점인 정확도 저하 및 높은 연산 오버헤드를 해결하는 것을 목표로 합니다. 특히, 추론 과정의 효율성과 성능을 동시에 향상시키기 위해 저품질 추론 경로를 동적으로 필터링 하는 방법을 제시합니다.

#Review #LLM Reasoning #Confidence Filtering #Self-Consistency #Test-Time Optimization #Computational Efficiency #Adaptive Sampling #Early Stopping #Majority Voting

2025년 8월 22일

[논문리뷰] Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

기존 대규모 시각-언어 모델(LVLM)의 핵심 병목인 고비용의 정렬 사전 훈련(alignment pre-training) 단계를 제거 하고, 시각 정보를 이산적인 텍스트 토큰 공간에 강제로 매핑함으로써 발생하는 정보 손실 문제 를 해결하는 것을 목표로 합니다.

#Review #Multimodal Learning #Vision-Language Models #Alignment Pre-training #Text-to-Vision Mapping #Continuous Representations #Computational Efficiency #LLM

2025년 8월 19일

[논문리뷰] GLiClass: Generalist Lightweight Model for Sequence Classification Tasks

본 연구는 기존 제로샷 텍스트 분류 모델(생성형 LLM, 크로스 인코더, 임베딩 기반 모델)의 한계점, 즉 계산 비효율성, 지시 불일치, 확장성 부족 등을 해결하고자 합니다.

#Review #Sequence Classification #Zero-shot Learning #Few-shot Learning #Transformer #Multi-label Classification #PPO #GLiNER #Computational Efficiency

2025년 8월 12일

[논문리뷰] A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models

본 연구는 대규모 시각-언어 모델(LVLM)에서 고해상도 입력 처리 시 발생하는 시각 토큰 폭증으로 인한 비효율성을 해결하고자 합니다.

#Review #Large Vision-Language Models (LVLMs)#Visual Token Pruning #Dynamic Compression #GlimpsePrune #Computational Efficiency #VQA #Reinforcement Learning

2025년 8월 5일

[논문리뷰] Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges

이 논문은 대규모 언어 모델(LLM) 기반의 대화 평가에서 현재 'LLM-as-a-judge' 패러다임이 겪는 편향 문제와 추론 시 발생하는 과도한 계산 오버헤드 를 해결하고자 합니다.

#Review #Multi-Turn Dialogue Evaluation #LLM-as-a-Judge #Multi-Judge Aggregation #Preference Learning #Dialogue Quality Assessment #Maximum Likelihood Estimation #Computational Efficiency

2025년 8월 4일

[논문리뷰] Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models

Diffusion Large Language Models (DLLMs)의 핵심 제약 사항인 고정된 출력 길이 문제를 해결하고, 태스크별로 동적으로 적응하는 가변 길이 생성 을 가능하게 하는 것을 목표로 합니다.

#Review #Diffusion Large Language Models #Variable-Length Generation #Dynamic Length Adaptation #Denoising Strategy #Inference Optimization #Computational Efficiency

2025년 8월 4일

[논문리뷰] Phi-Ground Tech Report: Advancing Perception in GUI Grounding

본 논문은 현재 65% 미만 의 정확도를 보이는 GUI 그라운딩 모델의 한계를 극복하고, Computer Use Agent (CUA) 의 핵심 구성 요소로서 GUI 요소 인식을 향상시켜 실제 애플리케이션에 배포 가능한 수준의 성능을 달성하는 것을 목표로 합니다.

#Review #GUI grounding #AI agent #Large Multi-modal Model #Perception #Data Augmentation #Direct Preference Optimization #Computational Efficiency

2025년 8월 2일

[논문리뷰] Efficient Machine Unlearning via Influence Approximation

본 논문은 대규모 데이터셋과 빈번한 삭제 요청이 발생하는 환경에서 기존 영향 함수 기반 언러닝(unlearning) 방식의 높은 계산 비용과 메모리 오버헤드 문제를 해결하고자 합니다.

#Review #Machine Unlearning #Influence Function #Incremental Learning #Privacy Protection #Gradient Optimization #Model Editing #Computational Efficiency

2025년 8월 2일

[논문리뷰] LLM-guided Hierarchical Retrieval

기존 LLM 기반 정보 검색(IR) 시스템이 직면한 Retrieve-then-Rerank 패러다임의 초기 검색 단계 한계와 Generative Retrieval의 확장성 문제를 해결하는 것이 목표입니다.

#Review #Information Retrieval #Large Language Models #Hierarchical Retrieval #Semantic Tree #Tree Traversal #Zero-shot Performance #Reasoning-based Retrieval #Computational Efficiency

2025년 10월 17일

[논문리뷰] EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

본 논문은 추론 언어 모델(LLM)에서 여러 추론 경로를 탐색할 때 발생하는 불필요한 계산 오버헤드 를 줄이고자 합니다.

#Review #LLM #Inference-Time Scaling #Entropy-Aware Generation #Adaptive Budget Allocation #Reasoning Benchmarks #Computational Efficiency #Chain-of-Thought

2025년 10월 16일

[논문리뷰] Dr.LLM: Dynamic Layer Routing in LLMs

대규모 언어 모델(LLM)이 모든 입력 토큰을 고정된 모든 레이어에 통과시키면서 발생하는 비효율성(쉬운 작업 시 연산 낭비)과 복잡한 추론 작업 시 유연성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Dynamic Routing #LLMs #Adaptive Depth #Computational Efficiency #Monte Carlo Tree Search (MCTS)#Retrofittable Framework #Supervised Learning #Accuracy Improvement

2025년 10월 15일

[논문리뷰] Mitigating Overthinking through Reasoning Shaping

본 논문은 Reinforcement Learning from Verifier Reward (RLVR)로 학습된 대규모 추론 모델(LRMs) 의 '과잉 사고(overthinking)' 문제를 해결하는 것을 목표로 합니다.

#Review #Large Reasoning Models (LRMs)#RLVR #Overthinking Mitigation #Reasoning Shaping #Segment-level Penalization #Computational Efficiency #Training Stability #Length-aware Weighting

2025년 10월 13일

[논문리뷰] The Markovian Thinker

본 논문은 추론 LLM 훈련 시 발생하는 무한한 상태 크기 와 추론 길이 증가에 따른 2차 계산 복잡도 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Chain-of-Thought #Markovian Thinking #Context Management #Computational Efficiency #Long-Context LLMs #Transformer Optimization

2025년 10월 9일

[논문리뷰] MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information

대규모 언어 모델(LLM)의 다단계 추론 과정에서 중간 단계의 품질을 효율적이고 신뢰성 있게 평가하고, 계산 비용이 높은 경로 탐색 문제를 해결하고자 합니다.

#Review #LLM Reasoning #Tree Search #Pointwise Mutual Information (PMI)#Dynamic Sampling #Beam Search #Weighted Voting #Information Theory #Computational Efficiency

2025년 10월 7일

[논문리뷰] Hybrid Architectures for Language Models: Systematic Analysis and Design Insights

기존 대규모 언어 모델(LLM)에서 Transformer 의 quadratic 복잡성과 Mamba 의 장문 컨텍스트 처리 한계를 극복하고자 합니다.

#Review #Hybrid LLM #Transformer Architecture #Mamba #State Space Models (SSM)#Computational Efficiency #Long-Context #Language Model Architectures #Scaling Laws

2025년 10월 7일

[논문리뷰] Sparser Block-Sparse Attention via Token Permutation

본 논문은 LLM에서 긴 컨텍스트 길이 처리 시 O(N^2) 복잡도 를 가진 self-attention 메커니즘 으로 인한 막대한 계산 비용과 메모리 병목 현상을 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Self-Attention #Block-Sparse Attention #Token Permutation #Computational Efficiency #Prefilling #Long Context #Causal Attention

2025년 10월 27일

[논문리뷰] Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

본 논문은 대규모 추론 모델(LRMs)이 기계 번역(MT) 품질 평가자로서 어떤 성능을 보이는지 체계적으로 분석하고, 그 과정에서 발생하는 비효율성과 한계를 식별하는 것을 목표로 합니다.

#Review #Machine Translation Evaluation #Large Reasoning Models #LLM-as-a-judge #MQM #Fine-tuning #Thinking Calibration #Computational Efficiency #Meta-evaluation

2025년 10월 27일

[논문리뷰] UltraGen: High-Resolution Video Generation with Hierarchical Attention

기존 Diffusion Transformer 기반 비디오 생성 모델들이 출력 해상도(예: <720P)에 따라 attention 메커니즘의 제곱 복잡도 로 인해 발생하는 높은 연산 비용 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #High-Resolution #Diffusion Transformer #Hierarchical Attention #Global-Local Attention #Computational Efficiency #4K Synthesis

2025년 10월 22일

[논문리뷰] MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

본 논문은 Diffusion Transformers (DiTs) 기반의 긴 비디오 생성에서 발생하는 전체 어텐션의 2차 시간 복잡도 문제 를 해결하고자 합니다.

#Review #Long Video Generation #Sparse Attention #Diffusion Transformers #Mixture-of-Groups Attention #Token Routing #Computational Efficiency #Context Length

2025년 10월 22일

[논문리뷰] Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models

MoE(Mixture-of-Experts) 모델이 배포 시 발생하는 분포 변화(distribution shifts) 로 인해 차선적인 라우팅 결정(suboptimal routing decisions) 을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Mixture-of-Experts (MoE)#Online Adaptation #Test-Time Adaptation (TTA)#Expert Routing #Large Language Models (LLMs)#Self-Supervision #Computational Efficiency #Context Shift Robustness

2025년 10월 20일