[논문리뷰] EarlyTom: Early Token Compression Completes Fast Video Understanding본 논문은 Video-LLM의 추론 효율성을 저해하는 가장 큰 병목 현상이 LLM 자체가 아닌 Vision Encoder 단계에 집중되어 있다는 점을 지적한다. 기존의 토큰 압축 연구들은 주로 LLM 내부나 그 이후 단계의 처리에 집중하여 TTFT를 효과적으로 줄이지 못했다 .#Review#Video-LLMs#Token Compression#Vision Encoder#Time-to-First-Token#Inference Efficiency#Training-free2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving본 논문은 End-to-End Autonomous Driving을 위한 Vision-Language-Action (VLA) 모델이 직면한 High-Fidelity Trajectory Planning과 Efficient Inference 간의 상충 관계 문제를 해결하고자 합니다.#Review#Autonomous Driving#VLM#Block-Diffusion#Inference Efficiency#Trajectory Planning#Scaffold Speculative Decoding#Latency#Throughput2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models본 논문은 LRM이 복잡한 문제 해결 과정에서 정답을 찾은 후에도 반복적인 검증이나 재구성을 수행하며 자원을 낭비하는 Overthinking 문제를 해결하고자 합니다 .#Review#Large Reasoning Models#Early Exit#Chain of Thought#Semantic Redundancy#Inference Efficiency#Answer Verification2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models본 논문은 AR 비디오 확산 모델에서 발생하는 과도한 어텐션 연산 복잡도와 메모리 오버헤드 문제를 해결하고자 합니다. 기존 모델들은 생성된 프레임이 축적될수록 전체 KV Cache를 참조하도록 강제되어, 고해상도 및 장기 비디오 생성 시 효율성이 극도로 저하되는 한계가 있습니다 .#Review#Autoregressive Video Diffusion#KV Cache Compression#Attention Head Specialization#Inference Efficiency#Video Generation2026년 5월 14일댓글 수 로딩 중
[논문리뷰] MISA: Mixture of Indexer Sparse Attention for Long-Context LLM Inference본 논문은 Long-context LLM Inference에서 indexer 연산이 전체 비용의 지배적인 비중을 차지하는 문제를 해결하기 위해 MISA를 제안한다.#Review#Large Language Models#Long-Context#Sparse Attention#Mixture of Experts#Indexer#Inference Efficiency#Retrieval2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning본 연구는 transformer 추론의 제1 원리에 기반하여 prefill과 decode 단계의 비대칭적 비용을 모델링한 하드웨어 인식 지표인 PTE를 제안한다. PTE는 memory-bound인 decode 비용을 compute-bound인 prefill 토큰 단위로 환산하여 통합함으로써, 하드웨어 프로필에 무관한 일관된 효율성 평가를 가능하게 한다.#Review#Tool-Integrated Reasoning (TIR)#KV-Cache#PTE (Prefill Token Equivalents)#Inference Efficiency#Hardware-Aware Metric#LLM Agent2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Universal YOCO for Efficient Depth Scaling본 논문은 기존 Transformer 기반 LLM의 추론 시간(Test-time) 계산 확장 효율성 문제를 해결하기 위해 제안되었습니다. 표준 Transformer에 단순 루핑 기법을 적용하면 계산 복잡도가 급증하고, 모델 깊이에 따라 KV cache 요구량이 선형적으로 증가하여 메모리 비용이 매우 커집니다.#Review#Large Language Models#Recursive Computation#YOCO#Depth Scaling#Inference Efficiency#KV Cache#Decoder-Decoder Architecture2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs본 논문은 Autoregressive (AR) LLM과 Diffusion (dLLM)의 내부 표현 구조가 어떻게 다른지 체계적으로 분석하고, 이러한 차이를 활용하여 추론 시 레이어 스키핑(layer skipping) 을 통한 효율성 증대 가능성을 탐색합니다.#Review#Diffusion LLMs#Autoregressive LLMs#Representational Analysis#Layer Skipping#Inference Efficiency#Initialization Bias#FLOPs Reduction#Recency Bias2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters본 논문은 11B 활성화 파라미터 를 가진 196B Mixture-of-Experts (MoE) 모델 인 Step 3.5 Flash 를 소개하며, 첨단 에이전트 지능과 컴퓨팅 효율성 간의 격차를 해소하는 것을 목표로 합니다.#Review#Mixture-of-Experts (MoE)#Sparse Models#Inference Efficiency#Hybrid Attention#Multi-Token Prediction (MTP)#Reinforcement Learning (RL)#Agentic AI#Long-Context Understanding2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning대규모 언어 모델(LLMs)이 직면한 긴 컨텍스트 처리의 문제를 해결하는 것이 목표입니다. 특히 연산 비용 증가 , 정보 망각 , 그리고 RAG(Retrieval-Augmented Generation)의 컨텍스트 단편화 와 같은 한계를 극복하며, 효율적인 긴 컨텍스트 추론 프레임워크를 제시하고자 합니다.#Review#Long Context Reasoning#Memory Compression#Reinforcement Learning#Large Language Models (LLMs)#Inference Efficiency#Dynamic Recall#KV-Cache#Multi-hop Reasoning2026년 2월 10일댓글 수 로딩 중
[논문리뷰] LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning화학 분야의 대규모 언어 모델(LLMs)이 명시적인 자연어 Chain-of-Thought (CoT) 추론에 과도하게 의존하여 발생하는 '연속성-이산성 격차(continuity-discretization gap)' 문제를 해결하고자 합니다.#Review#Chemical Reasoning#Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Space#Molecular Optimization#Inference Efficiency#Reinforcement Learning#Chemical AI2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening본 논문의 핵심 목표는 LLM의 추론 성능을 향상시키는 데 사용되는 강화 학습(RL) 기반 후처리 및 MCMC(Markov Chain Monte Carlo) 기반 파워 샘플링 의 높은 계산 비용 문제를 해결하는 것입니다.#Review#LLM Reasoning#Distribution Sharpening#Power Sampling#Training-Free#Monte Carlo Estimation#Jackknife Correction#Autoregressive Generation#Inference Efficiency2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Shallow-π: Knowledge Distillation for Flow-based VLAs본 논문은 대규모 Vision-Language-Action (VLA) 모델 의 높은 연산 비용으로 인해 엣지 디바이스에서의 실시간 배포가 어려운 문제를 해결하고자 합니다.#Review#Knowledge Distillation#Flow-based VLA#Transformer Compression#Real-time Robotics#Edge AI#Vision-Language-Action Models#Inference Efficiency2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning본 논문은 복잡한 시각-언어-액션 (VLA) 태스크에서 기존 추론 VLA 모델들이 긴 chain-of-thought (CoT) 추론 과정으로 인해 겪는 높은 추론 지연 시간(inference latency) 문제를 해결하고자 합니다.#Review#Vision-Language-Action#Embodied AI#Latent Planning#Chain-of-Thought#Distillation#Inference Efficiency#Robotic Manipulation#Preference Learning2026년 1월 14일댓글 수 로딩 중
[논문리뷰] End-to-End Test-Time Training for Long Context본 논문은 트랜스포머의 전체 어텐션이 긴 컨텍스트에서 선형적인 비용 증가로 비효율적인 문제를 해결하고자 합니다.#Review#Long-Context Language Modeling#Test-Time Training (TTT)#Meta-Learning#Continual Learning#Transformer#Sliding-Window Attention#Inference Efficiency#MLP Adaptation2025년 12월 30일댓글 수 로딩 중
[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling대규모 언어 모델(LLMs)을 강화 학습(RL)으로 정렬하는 과정에서 발생하는 높은 온-정책 롤아웃 비용 과 다양한 추론 경로 탐색의 한계 를 해결하고자 합니다. 본 논문은 시퀀스 생성을 트리 구조 검색 과정 으로 모델링하여 정책 최적화의 효율성과 추론 성능 간의 격차를 해소하는 것을 목표로 합니다.#Review#Reinforcement Learning#Policy Optimization#Large Language Models#Inference Efficiency#Tree Search#Segment-level Decoding#Advantage Estimation#Reasoning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency본 연구는 오픈소스 멀티모달 모델인 InternVL 시리즈를 다용성, 추론 능력, 그리고 추론 효율성 측면에서 발전시키는 것을 목표로 합니다. 특히, 최첨단 상업 모델인 GPT-5 와의 성능 격차를 줄이고, 실제 멀티모달 LLM(MLLM) 애플리케이션의 계산 병목 현상을 해결하고자 합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Inference Efficiency#Vision-Language Models#Open-Source#Versatility#Reasoning2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Parallel Loop Transformer for Efficient Test-Time Computation Scaling본 논문은 Looped Transformer의 고질적인 문제인 순차적인 루프 실행 으로 인한 높은 추론 지연 시간 과 선형적으로 증가하는 KV 캐시 메모리 요구사항 을 해결하는 것을 목표로 합니다.#Review#Large Language Models#Looped Transformers#Inference Efficiency#Parallel Computation#KV Cache Optimization#Gated Sliding-Window Attention#Cross-Loop Parallelism2025년 10월 30일댓글 수 로딩 중