[논문리뷰] Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning본 연구는 transformer 추론의 제1 원리에 기반하여 prefill과 decode 단계의 비대칭적 비용을 모델링한 하드웨어 인식 지표인 PTE를 제안한다. PTE는 memory-bound인 decode 비용을 compute-bound인 prefill 토큰 단위로 환산하여 통합함으로써, 하드웨어 프로필에 무관한 일관된 효율성 평가를 가능하게 한다.#Review#Tool-Integrated Reasoning (TIR)#KV-Cache#PTE (Prefill Token Equivalents)#Inference Efficiency#Hardware-Aware Metric#LLM Agent2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Action Images: End-to-End Policy Learning via Multiview Video Generation본 논문은 7-DoF 로봇 제어 입력을 Action Images로 변환하여 시각적 표현으로 통합하는 방식을 취합니다 . 제안 모델은 Wan 2.2 비디오 백본을 기반으로 하며, RGB 비디오와 Action Images를 결합하여 비디오 공간에서 물리적 동역학을 모델링합니다 .#Review#World Action Model#Robot Policy Learning#Multiview Video Generation#Pixel-grounded Representation#Zero-shot Policy2026년 4월 7일댓글 수 로딩 중
[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].#Review#Code Generation#LLM#Test Reranking#AUC#Discriminative Power#Leave-One-Out#Test Weighting2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Your Agent, Their Asset: A Real-World Safety Analysis of OpenClawarXiv에 게시된 'Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw' 논문에 대한 자세한 리뷰입니다.#Review#Personal AI Agents#Persistent State#Security Analysis#CIK Taxonomy#Prompt Injection#Agent Safety#Evolution-Safety Tradeoff2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 . 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다.#Review#Vision-Language Models#Reinforcement Learning#Visual Reasoning#Multi-task Learning#Chain-of-Thought#Data Diversity#Reward Engineering2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing저자들은 샘플의 학습 상태에 따라 적절한 최적화 방식을 할당하는 SRPO (Sample-Routed Policy Optimization)를 제안합니다 . SRPO는 정답 샘플에 대해서는 GRPO의 보상 정렬(reward-aligned) 강화를 적용하고, 오류 샘플 중 피드백 정보가 가용한 경우에는 SDPO의 정밀한 logit 수준 교정을 적용합니다.#Review#RLVR#GRPO#SDPO#Sample Routing#Policy Optimization#Self-Distillation2026년 4월 6일댓글 수 로딩 중
[논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV CompressionarXiv에 게시된 'TriAttention: Efficient Long Reasoning with Trigonometric KV Compression' 논문에 대한 자세한 리뷰입니다.#Review#KV Cache#LLM#Attention#RoPE#Compression#Reasoning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models본 연구는 합성 동역학 시스템을 활용한 제어된 실험을 통해 이산적 토큰화(tokenization)가 기하학적 불안정성의 원인임을 입증합니다. 동일한 인코더 백본을 유지한 채 출력 헤드만 이산적인 Cross-Entropy 대신 연속적인 MSE 기반으로 변경했을 때, 기하학적 왜곡이 최대 8.5배 감소함을 확인하였습니다 .#Review#Geometric Alignment Tax#Foundation Models#Tokenization#Manifold Fracture#Rate-Distortion Theory2026년 4월 6일댓글 수 로딩 중
[논문리뷰] SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing본 논문은 공간 편집 능력을 확장하기 위해 체계적인 데이터 생성 엔진인 SpatialEdit-500k와 기하학적 정밀성을 평가하는 SpatialEdit-Bench를 제안한다. SpatialEdit-500k는 Blender를 사용하여 다양한 객체와 장면에서 카메라 궤적과 객체 변환을 포함한 50만 개의 쌍(paired) 데이터를 생성하여 학습을 지원한다 .#Review#Image Spatial Editing#Benchmark#Dataset#Geometry-Aware Evaluation#Camera Manipulation#Object Manipulation#Multimodal Large Models2026년 4월 6일댓글 수 로딩 중
[논문리뷰] SkillX: Automatically Constructing Skill Knowledge Bases for Agents저자들은 에이전트의 경험을 계층적으로 구조화하여 재사용성을 극대화하는 SkillX 프레임워크를 제안합니다 . SkillX는 고성능 backbone 에이전트인 GLM-4.6을 사용하여 훈련 태스크를 수행하고, 성공한 trajectory로부터 Planning, Functional, Atomic 단계의 skill을 증류(distill)합니다.#Review#LLM Agents#Skill Knowledge Base#Hierarchical Representation#Autonomous Experience Learning#Agent Self-Evolution#Tool Use2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Self-Execution Simulation Improves Coding ModelsMichael Hassid이 arXiv에 게시한 'Self-Execution Simulation Improves Coding Models' 논문에 대한 자세한 리뷰입니다.#Review#Code LLM#Execution Simulation#Self-Verification#Self-RLEF#Reinforcement Learning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] SciLT: Long-Tailed Classification in Scientific Image DomainsBing Su이 arXiv에 게시한 'SciLT: Long-Tailed Classification in Scientific Image Domains' 논문에 대한 자세한 리뷰입니다.#Review#Long-Tailed Recognition#Scientific Image Domain#Foundation Models#Parameter-Efficient Fine-Tuning#Feature Fusion#Domain Shift#Representation Learning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Paper Espresso: From Paper Overload to Research InsightarXiv에 게시된 'Paper Espresso: From Paper Overload to Research Insight' 논문에 대한 자세한 리뷰입니다.#Review#Paper Summarization#Trend Analysis#Knowledge Discovery#Large Language Models#Research Tools2026년 4월 6일댓글 수 로딩 중
[논문리뷰] POEMetric: The Last Stanza of HumanityHazel Wilkinson이 arXiv에 게시한 'POEMetric: The Last Stanza of Humanity' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Poetry Evaluation#POEMetric#Creative AI#Literary Criticism#Instruction-following2026년 4월 6일댓글 수 로딩 중
[논문리뷰] PLUME: Latent Reasoning Based Universal Multimodal EmbeddingarXiv에 게시된 'PLUME: Latent Reasoning Based Universal Multimodal Embedding' 논문에 대한 자세한 리뷰입니다.#Review#Universal Multimodal Embedding#Latent Reasoning#Multimodal Large Language Models#Chain-of-Thought#Semantic-Anchor-Guided#Curriculum Learning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] OpenWorldLib: A Unified Codebase and Definition of Advanced World ModelsarXiv에 게시된 'OpenWorldLib: A Unified Codebase and Definition of Advanced World Models' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Unified Inference Framework#Multimodal Reasoning#Vision-Language-Action#3D Generation#Interactive Video Generation2026년 4월 6일댓글 수 로딩 중
[논문리뷰] MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale본 논문은 데이터의 범위, 정보성, 정확도를 극대화하기 위해 DDAS, CMCV, Judge-and-Refine 파이프라인으로 구성된 데이터 엔진을 제안한다 . DDAS는 샘플링의 다양성과 난이도를 동시에 고려하여 학습 데이터를 10M 이하에서 65.5M으로 확장하였으며 , CMCV는 모델 간 불일치를 활용하여 데이터의 난이도를 등급화한다.#Review#Document Parsing#Data-Centric AI#Vision-Language Model#Progressive Training#Data Engine2026년 4월 6일댓글 수 로딩 중
[논문리뷰] LightThinker++: From Reasoning Compression to Memory Management저자들은 암시적 압축에서 시작하여 명시적 행동 수준의 관리로 진화하는 LightThinker 계열 모델을 제안한다. LightThinker는 gist tokens와 특수 설계된 attention mask를 활용하여 긴 사고 과정을 컴팩트한 표현으로 변환한다 .#Review#Large Language Models#Reasoning Compression#Memory Management#Agentic Reasoning#Context Optimization2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Less Detail, Better Answers: Degradation-Driven Prompting for VQAarXiv에 게시된 'Less Detail, Better Answers: Degradation-Driven Prompting for VQA' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Visual Question Answering#Degradation-Driven Prompting#Agentic Perception#Structural Bottleneck2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation PoliciesarXiv에 게시된 'Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies' 논문에 대한 자세한 리뷰입니다.#Review#Test-Time Learning#Language Agents#Meta-Learning#Evolutionary Optimization#Adaptive Policy#LLM Agents#Prompt Engineering2026년 4월 6일댓글 수 로딩 중