[논문리뷰] Light-WAM: Efficient World Action Models with State-Fusion Action Decoding본 논문은 대규모 생성적 아키텍처를 기반으로 하는 기존 WAM의 높은 학습 비용과 추론 Latency 문제를 해결하기 위해 Light-WAM을 제안합니다.#Review#World Action Models#Robot Manipulation#State-Fusion Action Decoding#Efficient Inference#Latent Space Supervision#Video Co-training2026년 6월 8일댓글 수 로딩 중
[논문리뷰] Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity본 논문은 Long-context LLM의 추론 효율성을 높이기 위한 기존 Query-aware sparse inference 기법들의 성능 한계를 극복하는 것을 목표로 한다.#Review#Efficient Inference#Query-Aware Sparsity#KV-cache#Exponentially Decaying Memory#RAT+#Long-Context LLM2026년 6월 7일댓글 수 로딩 중
[논문리뷰] Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps본 논문은 Long-context 추론 시 발생하는 full attention의 이차 비용(quadratic cost) 문제를 해결하기 위해 효율적인 스파스(sparse) 구조로의 전환을 제안한다.#Review#Long-context LLM#Sparse Attention#Head Specialization#Dynamic Top-pp Selection#Efficient Inference#Self-distillation2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning본 논문은 현재 T2I(Text-to-Image) 모델이 의존하는 single-step generation 패러다임의 한계를 극복하고자 합니다.#Review#Text-to-Image Generation#Chain-of-Thought#Reinforcement Learning#Diffusion Models#Test-time Scaling#Model Alignment#Efficient Inference2026년 5월 14일댓글 수 로딩 중
[논문리뷰] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens저자들은 비디오 프레임 전체를 모델링하는 대신, 프레임 간의 '변화(Delta)'만을 압축하는 DeltaTok과 이를 기반으로 생성적 추론을 수행하는 DeltaWorld를 제안합니다. DeltaTok은 이전 프레임의 특징을 바탕으로 현재 프레임과의 차이를 단일 토큰으로 인코딩하여 비디오를 순수 시간적 시퀀스로 변환합니다 .#Review#Generative World Modeling#Delta Tokens#Visual Tokenization#Vision Foundation Models#Best-of-Many Training#Spatio-temporal Redundancy#Efficient Inference2026년 4월 8일댓글 수 로딩 중
[논문리뷰] ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning최근의 MLLMs 는 입력 정보의 정밀도(fidelity)를 높여 성능을 향상시키지만, 이는 과도한 visual token의 증가로 이어져 고해상도와 긴 시간적 맥락(long temporal context)을 동시에 유지하는 것을 불가능하게 만듭니다.#Review#Multimodal Large Language Models (MLLMs)#Input-side Adaptation#Contextual Bandit#Cost-Aware Policy Optimization (CAPO)#Visual Budgeting#Efficient Inference#Temporal Reasoning2026년 3월 30일댓글 수 로딩 중
[논문리뷰] On-Policy Self-Distillation for Reasoning Compression본 논문은 대규모 언어 모델(LLM)이 추론 과정에서 생성하는 불필요하고 과도한 토큰으로 인한 비효율성 및 오류 누적 문제 를 해결하고자 합니다. 정답 데이터나 토큰 예산 같은 외부 제약 없이 모델 스스로 간결하게 추론하도록 학습시켜, 추론 과정의 압축과 동시에 정확도를 향상시키는 방법론을 제안합니다.#Review#Reasoning Compression#Self-Distillation#On-Policy Learning#Large Language Models#Mathematical Reasoning#Knowledge Distillation#Efficient Inference2026년 3월 5일댓글 수 로딩 중
[논문리뷰] dLLM: Simple Diffusion Language Modeling이 논문은 확산 언어 모델(DLM) 의 훈련, 추론, 평가를 아우르는 통합된 오픈소스 프레임워크인 dLLM 을 제공하는 것을 목표로 합니다. DLM 연구의 진입 장벽을 낮추고, 기존 모델의 재현, 파인튜닝, 비교를 용이하게 하며, 새로운 DLM 설계 통합을 단순화하고자 합니다.#Review#Diffusion Language Models#Open-source Framework#Modular Design#Masked Diffusion#Block Diffusion#Language Model Finetuning#Efficient Inference#Evaluation Pipeline2026년 3월 1일댓글 수 로딩 중
[논문리뷰] Does Your Reasoning Model Implicitly Know When to Stop Thinking?본 논문은 대규모 추론 모델(LRMs)이 긴 Chain of Thought (CoT) 를 통해 복잡한 추론 작업을 수행할 때 발생하는 상당한 중복과 비효율성 문제를 해결하는 것을 목표로 합니다.#Review#Large Reasoning Models#Chain of Thought#Efficient Inference#Self-Aware Sampling#Reinforcement Learning#Reasoning Termination#Mathematical Benchmarks2026년 2월 22일댓글 수 로딩 중
[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation Model기존 텍스트-투-비디오(T2V) 모델이 오디오 정보 없이 '침묵하는' 영상을 생성하는 한계를 해결하고자 합니다. 이 연구는 고품질의 시간적으로 동기화된 오디오-비주얼 콘텐츠를 텍스트 프롬프트로부터 생성하는 오픈 소스 통합 파운데이션 모델(T2AV) 인 LTX-2 를 개발하는 것을 목표로 합니다.#Review#Multimodal AI#Text-to-Audio-Video#Diffusion Transformer#Cross-Modal Attention#Classifier-Free Guidance#Efficient Inference#Foundation Model2026년 1월 6일댓글 수 로딩 중
[논문리뷰] HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices현재 멀티모달 대규모 언어 모델(MLLM)이 가진 높은 연산 및 메모리 요구사항으로 인한 온디바이스 배포의 어려움을 해결하는 것을 목표로 합니다.#Review#Multimodal Large Language Model#Edge AI#Efficient Inference#Visual Resolution Compressor#Dual Consistency Learning#Vision Transformer#Quantization#Low-Latency2025년 12월 17일댓글 수 로딩 중
[논문리뷰] TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows현재 다단계 생성 모델(Diffusion, Flow Matching)의 느린 추론 속도 (40-100 NFE) 문제를 해결하는 것을 목표로 합니다.#Review#Generative Models#One-step Generation#Self-Adversarial Learning#Flow Matching#Large Language Models#Text-to-Image#Efficient Inference#Diffusion Models2025년 12월 7일댓글 수 로딩 중
[논문리뷰] LFM2 Technical Report본 논문은 LFM2 라는 Liquid Foundation Models 제품군을 소개하며, 효율적인 온-디바이스 배포 와 강력한 태스크 수행 능력 을 동시에 달성하는 것을 목표로 합니다.#Review#Edge AI#Foundation Models#Hybrid Architecture#Knowledge Distillation#Multimodal AI#On-device Deployment#Efficient Inference#LLM Optimization2025년 12월 1일댓글 수 로딩 중
[논문리뷰] HunyuanVideo 1.5 Technical Report경량화되면서도 강력한 오픈소스 비디오 생성 모델 Hunyuan Video 1.5 를 개발하여, 8.3억 파라미터로 최첨단 시각 품질과 움직임 일관성을 달성하고, 소비자용 GPU에서 효율적인 추론을 가능하게 하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Transformer#Sparse Attention#Super-Resolution#Open-Source#Multimodal Understanding#Training Optimization#Efficient Inference2025년 11월 24일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Nano V2 VLNemotron Nano V2 VL은 강력한 실세계 문서 이해 , 긴 비디오 이해 , 그리고 추론 태스크 를 위해 설계된 최신 비전-언어 모델입니다.#Review#Vision-Language Model#Hybrid Architecture#Mamba-Transformer#Long-Context Understanding#Quantization#Efficient Inference#Document AI#Video AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer본 논문은 기존 비디오 생성 모델의 높은 연산 복잡성(O(N^2))과 느린 추론 속도로 인한 비효율성을 해결하여, 고해상도(720x1280), 고품질, 장시간(분 단위) 비디오를 빠르고 효율적으로 생성 하는 소형 확산 모델인 SANA-Video를 개발하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Model#Linear Attention#Transformer#Long Video#Efficient Inference#Constant Memory#Low-Cost Training#RTX Deployment2025년 9월 30일댓글 수 로딩 중
[논문리뷰] Quantized Visual Geometry Grounded Transformer대규모 Visual Geometry Grounded Transformers (VGGTs) 모델의 과도한 연산 및 메모리 비용 문제를 해결하고, 실세계 배포를 위한 효율적인 저비트 양자화 프레임워크를 개발하는 것이 목표입니다.#Review#Quantization#Post-Training Quantization#3D Reconstruction#Visual Transformer#Model Compression#Efficient Inference#Hadamard Rotation#Calibration Sampling2025년 9월 26일댓글 수 로딩 중
[논문리뷰] MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe본 논문은 급속히 발전하는 Multimodal Large Language Models (MLLMs)의 고질적인 훈련 및 추론 효율성 문제를 해결하는 것을 목표로 합니다.#Review#MLLM Efficiency#Multimodal Transformer#3D-Resampler#Document AI#Hybrid Reinforcement Learning#Video Understanding#Efficient Inference2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Causal Attention with Lookahead Keys이 연구는 자기회귀(autoregressive) 언어 모델 의 핵심 구성 요소인 표준 인과적 어텐션(causal attention)이 이전 문맥에만 의존하여 전역적 문맥 파악과 자연어 이해 능력을 저해하는 문제를 해결하는 것을 목표로 합니다.#Review#Causal Attention#Lookahead Keys#Autoregressive Modeling#Language Models#Transformer#Perplexity Reduction#Parallel Training#Efficient Inference2025년 9월 10일댓글 수 로딩 중
[논문리뷰] UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning본 논문은 Mixture of Experts (MoE) 모델이 겪는 높은 메모리 접근 비용 문제를 해결하고, 기존 메모리 레이어 아키텍처인 UltraMem이 8-expert MoE 모델 성능에 미치지 못하는 격차를 해소하는 것을 목표로 합니다.#Review#Memory Networks#Mixture of Experts (MoE)#Long-Context Learning#Sparse Models#Transformer Architecture#LLMs#Efficient Inference2025년 8월 27일댓글 수 로딩 중
[논문리뷰] MiDashengLM: Efficient Audio Understanding with General Audio Captions본 논문은 기존 대규모 오디오 언어 모델(LALM)이 직면한 폐쇄형 데이터 의존성, 일반화 및 접근성 한계, 그리고 자동 음성 인식(ASR) 기반 사전 훈련의 비효율성을 해결하고자 합니다.#Review#Audio-Language Model#General Audio Captions#Audio Understanding#Speech Recognition#Efficient Inference#Public Datasets#Multimodality#Data Curation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Kimi Linear: An Expressive, Efficient Attention Architecture표준 트랜스포머의 quadratic 시간 복잡도 와 선형적으로 증가하는 KV 캐시 의 비효율성을 극복하여, 장문 컨텍스트 및 강화 학습(RL) 환경에서 풀 어텐션(Full Attention)과 동등하거나 더 우수한 성능 을 달성하면서도 효율적인 하이브리드 선형 어텐션 아키텍처 를 개발하는 것입니다.#Review#Linear Attention#Hybrid Architecture#Kimi Delta Attention (KDA)#Gating Mechanism#Long-Context Modeling#Efficient Inference#Transformer2025년 10월 31일댓글 수 로딩 중
[논문리뷰] RegionE: Adaptive Region-Aware Generation for Efficient Image Editing본 논문은 Instruction-Based Image Editing (IIE) 작업에서 모델이 이미지 전체에 균일한 생성 프로세스를 적용하여 발생하는 공간적 및 시간적 중복성을 해결하고, 이를 통해 추론 속도를 획기적으로 가속화하는 것을 목표로 합니다.#Review#Instruction-based Image Editing#Diffusion Models#Efficient Inference#Region-Aware Generation#Adaptive Caching#Spatial Redundancy#Temporal Redundancy2025년 10월 30일댓글 수 로딩 중