최신 포스트

[논문리뷰] Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

본 논문은 기존 autonomous agent 벤치마크가 보유한 세 가지 핵심적인 한계점인 trajectory-opaque grading, 불충분한 안전성 및 견고성 평가, 그리고 모달리티의 제한성을 해결하기 위해 Claw-Eval 을 제안합니다.

#Review #Autonomous Agents #Benchmark #Trajectory-aware Grading #Safety Evaluation #Robustness Testing #Multimodal Perception

2026년 4월 7일

[논문리뷰] Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

저자들은 자연 영상에 사전 학습된 2D DCAE를 사용하여 3D fMRI 볼륨을 27개의 컴팩트한 토큰으로 효율적으로 압축하는 토큰화 방식을 제안합니다 . 이 토큰화된 데이터는 메모리 효율적인 Transformer 아키텍처에 입력되며, MTM을 통해 자기지도 사전 학습을 수행함으로써 하류 작업(downstream tasks) 성능을 향상합니다.

#Review #fMRI #Transformer #Tokenization #Deep Compression Autoencoder #Self-supervised Learning #Long-range Dynamics

2026년 4월 7일

[논문리뷰] Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

본 연구는 transformer 추론의 제1 원리에 기반하여 prefill과 decode 단계의 비대칭적 비용을 모델링한 하드웨어 인식 지표인 PTE를 제안한다. PTE는 memory-bound인 decode 비용을 compute-bound인 prefill 토큰 단위로 환산하여 통합함으로써, 하드웨어 프로필에 무관한 일관된 효율성 평가를 가능하게 한다.

#Review #Tool-Integrated Reasoning (TIR)#KV-Cache #PTE (Prefill Token Equivalents)#Inference Efficiency #Hardware-Aware Metric #LLM Agent

2026년 4월 7일

[논문리뷰] Action Images: End-to-End Policy Learning via Multiview Video Generation

본 논문은 7-DoF 로봇 제어 입력을 Action Images로 변환하여 시각적 표현으로 통합하는 방식을 취합니다 . 제안 모델은 Wan 2.2 비디오 백본을 기반으로 하며, RGB 비디오와 Action Images를 결합하여 비디오 공간에서 물리적 동역학을 모델링합니다 .

#Review #World Action Model #Robot Policy Learning #Multiview Video Generation #Pixel-grounded Representation #Zero-shot Policy

2026년 4월 7일

[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].

#Review #Code Generation #LLM #Test Reranking #AUC #Discriminative Power #Leave-One-Out #Test Weighting

2026년 4월 7일

[ACE-Step-1.5] MLX VAE 디코딩 메모리 최적화: Apple Silicon에서 피크 메모리 56% 절감

MLX VAE 디코딩 청크 크기를 줄여 Apple Silicon의 피크 메모리를 56% 절감했습니다.

#MLX #Apple Silicon #VAE #Memory Optimization #Performance

2026년 4월 7일

[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선

sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석

#sglang #performance #optimization #torch.compile #fusion #CUDA

2026년 4월 7일

[llm-compressor] Gemma4 MoE 모델 양자화를 위한 llm-compressor 지원 추가 분석

llm-compressor에 Gemma4 MoE 모델의 양자화 및 최적화를 위한 지원을 추가하는 PR을 분석합니다.

#llm-compressor #Gemma4 #MoE #양자화 #최적화 #기술 블로그

2026년 4월 7일

[sglang] SGLang NIXL 이기종 TP 환경에서 디스어그리게이션 KV 캐시 전송 버그 수정 및 성능 개선

SGLang NIXL에서 이기종 TP 환경의 KV 캐시 전송 문제를 해결하여 디스어그리게이션 서빙 안정성을 높였습니다.

#SGLang #NIXL #KV Cache #Disaggregation #TP Heterogeneous #Optimization

2026년 4월 7일

[sglang] sglang, Qwen3.5-397B FP8 모델 성능 벤치마크 추가 및 CI 개선

sglang 레포지토리에서 Qwen3.5-397B FP8 모델의 AMD GPU 성능 벤치마크를 추가하고 CI 워크플로우를 개선한 PR을 분석합니다.

#sglang #performance #CI #AMD #Qwen3.5 #FP8 #benchmarking

2026년 4월 7일

[논문리뷰] Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

본 논문은 현대 개인용 AI 에이전트가 고도의 자동화와 개인화를 위해 사용하는 Persistent State 가 심각한 보안 취약점을 초래한다는 문제를 해결하고자 합니다.

#Review #Personal AI Agents #Persistent State #Security Analysis #CIK Taxonomy #Prompt Injection #Agent Safety #Evolution-Safety Tradeoff

2026년 4월 6일

[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning

저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 . 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다.

#Review #Vision-Language Models #Reinforcement Learning #Visual Reasoning #Multi-task Learning #Chain-of-Thought #Data Diversity #Reward Engineering

2026년 4월 6일

[논문리뷰] Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

저자들은 샘플의 학습 상태에 따라 적절한 최적화 방식을 할당하는 SRPO (Sample-Routed Policy Optimization)를 제안합니다 . SRPO는 정답 샘플에 대해서는 GRPO의 보상 정렬(reward-aligned) 강화를 적용하고, 오류 샘플 중 피드백 정보가 가용한 경우에는 SDPO의 정밀한 logit 수준 교정을 적용합니다.

#Review #RLVR #GRPO #SDPO #Sample Routing #Policy Optimization #Self-Distillation

2026년 4월 6일

[논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

본 논문은 기존 KV Cache 압축 기법들이 post-RoPE 공간의 제한된 관측치에 의존하여 발생하는 불안정성 문제를 해결하고자 합니다. 기존 방식들은 회전이 적용된 post-RoPE 쿼리를 사용하므로, 대표성 있는 쿼리 확보가 어려워 중요한 토큰이 조기에 삭제되는 현상이 빈번합니다 .

#Review #KV Cache #LLM #Attention #RoPE #Compression #Reasoning

2026년 4월 6일

[논문리뷰] The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

본 연구는 합성 동역학 시스템을 활용한 제어된 실험을 통해 이산적 토큰화(tokenization)가 기하학적 불안정성의 원인임을 입증합니다. 동일한 인코더 백본을 유지한 채 출력 헤드만 이산적인 Cross-Entropy 대신 연속적인 MSE 기반으로 변경했을 때, 기하학적 왜곡이 최대 8.5배 감소함을 확인하였습니다 .

#Review #Geometric Alignment Tax #Foundation Models #Tokenization #Manifold Fracture #Rate-Distortion Theory

2026년 4월 6일

[논문리뷰] SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

본 논문은 공간 편집 능력을 확장하기 위해 체계적인 데이터 생성 엔진인 SpatialEdit-500k와 기하학적 정밀성을 평가하는 SpatialEdit-Bench를 제안한다. SpatialEdit-500k는 Blender를 사용하여 다양한 객체와 장면에서 카메라 궤적과 객체 변환을 포함한 50만 개의 쌍(paired) 데이터를 생성하여 학습을 지원한다 .

#Review #Image Spatial Editing #Benchmark #Dataset #Geometry-Aware Evaluation #Camera Manipulation #Object Manipulation #Multimodal Large Models

2026년 4월 6일

[논문리뷰] SkillX: Automatically Constructing Skill Knowledge Bases for Agents

저자들은 에이전트의 경험을 계층적으로 구조화하여 재사용성을 극대화하는 SkillX 프레임워크를 제안합니다 . SkillX는 고성능 backbone 에이전트인 GLM-4.6을 사용하여 훈련 태스크를 수행하고, 성공한 trajectory로부터 Planning, Functional, Atomic 단계의 skill을 증류(distill)합니다.

#Review #LLM Agents #Skill Knowledge Base #Hierarchical Representation #Autonomous Experience Learning #Agent Self-Evolution #Tool Use

2026년 4월 6일

[논문리뷰] Self-Execution Simulation Improves Coding Models

본 논문은 LLM이 생성한 코드를 실제로 실행하지 않고도 코드의 실행 결과와 동학(dynamics)을 정확히 예측하도록 훈련하여 프로그래밍 성능을 향상시키는 것을 목표로 합니다.

#Review #Code LLM #Execution Simulation #Self-Verification #Self-RLEF #Reinforcement Learning

2026년 4월 6일

[논문리뷰] SciLT: Long-Tailed Classification in Scientific Image Domains

본 논문은 자연 이미지 도메인과 달리 도메인 이동(Domain Shift)과 데이터 분포의 심각한 불균형이 존재하는 과학적 이미지 도메인에서 파운데이션 모델의 미세 조정이 효과적이지 않다는 문제를 해결하고자 합니다.

#Review #Long-Tailed Recognition #Scientific Image Domain #Foundation Models #Parameter-Efficient Fine-Tuning #Feature Fusion #Domain Shift #Representation Learning

2026년 4월 6일

[논문리뷰] Paper Espresso: From Paper Overload to Research Insight

본 논문은 과학적 출판물의 급격한 증가로 인해 발생하는 연구자들의 정보 비대칭성과 과부하 문제를 해결하고자 합니다. arXiv에만 매월 약 30,000건의 논문이 제출되면서 개별 연구자가 모든 최신 동향을 파악하는 것은 불가능해졌습니다.

#Review #Paper Summarization #Trend Analysis #Knowledge Discovery #Large Language Models #Research Tools

2026년 4월 6일