[논문리뷰] Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning본 연구는 transformer 추론의 제1 원리에 기반하여 prefill과 decode 단계의 비대칭적 비용을 모델링한 하드웨어 인식 지표인 PTE를 제안한다. PTE는 memory-bound인 decode 비용을 compute-bound인 prefill 토큰 단위로 환산하여 통합함으로써, 하드웨어 프로필에 무관한 일관된 효율성 평가를 가능하게 한다.#Review#Tool-Integrated Reasoning (TIR)#KV-Cache#PTE (Prefill Token Equivalents)#Inference Efficiency#Hardware-Aware Metric#LLM Agent2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Universal YOCO for Efficient Depth ScalingarXiv에 게시된 'Universal YOCO for Efficient Depth Scaling' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Recursive Computation#YOCO#Depth Scaling#Inference Efficiency#KV Cache#Decoder-Decoder Architecture2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMsarXiv에 게시된 'Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion LLMs#Autoregressive LLMs#Representational Analysis#Layer Skipping#Inference Efficiency#Initialization Bias#FLOPs Reduction#Recency Bias2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active ParametersarXiv에 게시된 'Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters' 논문에 대한 자세한 리뷰입니다.#Review#Mixture-of-Experts (MoE)#Sparse Models#Inference Efficiency#Hybrid Attention#Multi-Token Prediction (MTP)#Reinforcement Learning (RL)#Agentic AI#Long-Context Understanding2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement LearningarXiv에 게시된 'Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Long Context Reasoning#Memory Compression#Reinforcement Learning#Large Language Models (LLMs)#Inference Efficiency#Dynamic Recall#KV-Cache#Multi-hop Reasoning2026년 2월 10일댓글 수 로딩 중
[논문리뷰] LatentChem: From Textual CoT to Latent Thinking in Chemical ReasoningJia Zhang이 arXiv에 게시한 'LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Chemical Reasoning#Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Space#Molecular Optimization#Inference Efficiency#Reinforcement Learning#Chemical AI2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution SharpeningHaitham Bou Ammar이 arXiv에 게시한 'Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening' 논문에 대한 자세한 리뷰입니다.#Review#LLM Reasoning#Distribution Sharpening#Power Sampling#Training-Free#Monte Carlo Estimation#Jackknife Correction#Autoregressive Generation#Inference Efficiency2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Shallow-π: Knowledge Distillation for Flow-based VLAsarXiv에 게시된 'Shallow-π: Knowledge Distillation for Flow-based VLAs' 논문에 대한 자세한 리뷰입니다.#Review#Knowledge Distillation#Flow-based VLA#Transformer Compression#Real-time Robotics#Edge AI#Vision-Language-Action Models#Inference Efficiency2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent PlanningarXiv에 게시된 'Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action#Embodied AI#Latent Planning#Chain-of-Thought#Distillation#Inference Efficiency#Robotic Manipulation#Preference Learning2026년 1월 14일댓글 수 로딩 중
[논문리뷰] End-to-End Test-Time Training for Long ContextMarcel Rød이 arXiv에 게시한 'End-to-End Test-Time Training for Long Context' 논문에 대한 자세한 리뷰입니다.#Review#Long-Context Language Modeling#Test-Time Training (TTT)#Meta-Learning#Continual Learning#Transformer#Sliding-Window Attention#Inference Efficiency#MLP Adaptation2025년 12월 30일댓글 수 로딩 중
[논문리뷰] Parallel Loop Transformer for Efficient Test-Time Computation ScalingarXiv에 게시된 'Parallel Loop Transformer for Efficient Test-Time Computation Scaling' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Looped Transformers#Inference Efficiency#Parallel Computation#KV Cache Optimization#Gated Sliding-Window Attention#Cross-Loop Parallelism2025년 10월 30일댓글 수 로딩 중
[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based ModelingZhoufutu Wen이 arXiv에 게시한 'TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Policy Optimization#Large Language Models#Inference Efficiency#Tree Search#Segment-level Decoding#Advantage Estimation#Reasoning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiencyjinglinglin이 arXiv에 게시한 'InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Inference Efficiency#Vision-Language Models#Open-Source#Versatility#Reasoning2025년 8월 26일댓글 수 로딩 중