[논문리뷰] GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers본 논문은 현대 소프트웨어 개발에서 자동화된 코드 생성 및 수정 기술은 크게 발전했으나, 정작 제품의 품질을 보장하는 핵심 단계인 '자율적 버그 탐색' 연구는 여전히 미진하다는 문제의식에서 출발한다.#Review#Autonomous Bug Discovery#Large Language Models#Game Benchmark#Quality Assurance#Multi-agent System#Software Engineering2026년 4월 7일댓글 수 로딩 중
[논문리뷰] FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification본 논문은 기존의 LLM 기반 리뷰 시스템들이 논문 본문의 서술에만 과도하게 의존하여, 실제 경험적 증거에 기반한 비판적 평가에 취약하다는 문제를 해결하고자 합니다. 대부분의 기존 시스템은 저자의 서술 품질이나 수사학적 프레임워크에 영향을 받기 쉬우며, 외부 증거(코드, 인접 연구)를 검증하지 못한다는 한계를 가집니다.#Review#Peer Review#Evidence-Grounded#Claim Verification#Reproducibility#LLM Agent2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Experience Transfer for Multimodal LLM Agents in Minecraft Game본 논문은 Echo 프레임워크를 통해 환경 지식을 5가지 전이 차원으로 분해하고 CSD를 통해 이를 통일된 의미론적 형태로 변환하여 관리합니다 . CSD는 시각적 및 텍스트 정보를 벡터화된 임베딩과 결합하여 메모리 뱅크에 저장하며, 이를 통해 ICAL 알고리즘이 관련 경험을 정밀하게 검색할 수 있도록 지원합니다 .#Review#Multimodal LLM Agent#Experience Transfer#In-Context Analogy Learning (ICAL)#Minecraft#Contextual State Descriptor (CSD)#Embodied Intelligence2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Demystifying When Pruning Works via Representation Hierarchies본 논문은 Network Pruning이 비생성적(non-generative) 태스크에서는 성능을 잘 유지하는 반면, 생성적(generative) 태스크에서는 흔히 실패한다는 현상의 근본 원인을 규명합니다. 기존의 Pruning 연구들은 태스크 유형에 따른 이러한 상이한 성능 양상을 체계적으로 설명하지 못했습니다.#Review#Network Pruning#Large Language Models#Representation Hierarchy#Autoregressive Decoding#Softmax Nonlinearity2026년 4월 7일댓글 수 로딩 중
[논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor본 논문은 dLLM을 위한 통합 후학습 및 평가 프레임워크인 DARE (dLLMs Alignment and Reinforcement Executor)를 제안한다. DARE는 verl과 OpenCompass를 기반으로 하며, 다양한 모델 패밀리(MDLM 및 BDLM)를 동일한 실행 스택에서 처리할 수 있도록 설계되었다 .#Review#Diffusion Large Language Models#Post-Training#Reinforcement Learning#Unified Framework#Systems Optimization2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Context-Value-Action Architecture for Value-Driven Large Language Model Agents본 논문은 LLM 기반 에이전트가 인간의 행동을 시뮬레이션할 때 발생하는 Behavioral Rigidity 와 양극화 문제를 해결하고자 합니다.#Review#LLM Agents#Value Alignment#Behavioral Fidelity#S-O-R Model#Value-Driven Reasoning#CVABench2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents본 논문은 기존 autonomous agent 벤치마크가 보유한 세 가지 핵심적인 한계점인 trajectory-opaque grading, 불충분한 안전성 및 견고성 평가, 그리고 모달리티의 제한성을 해결하기 위해 Claw-Eval 을 제안합니다.#Review#Autonomous Agents#Benchmark#Trajectory-aware Grading#Safety Evaluation#Robustness Testing#Multimodal Perception2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?저자들은 자연 영상에 사전 학습된 2D DCAE를 사용하여 3D fMRI 볼륨을 27개의 컴팩트한 토큰으로 효율적으로 압축하는 토큰화 방식을 제안합니다 . 이 토큰화된 데이터는 메모리 효율적인 Transformer 아키텍처에 입력되며, MTM을 통해 자기지도 사전 학습을 수행함으로써 하류 작업(downstream tasks) 성능을 향상합니다.#Review#fMRI#Transformer#Tokenization#Deep Compression Autoencoder#Self-supervised Learning#Long-range Dynamics2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning본 연구는 transformer 추론의 제1 원리에 기반하여 prefill과 decode 단계의 비대칭적 비용을 모델링한 하드웨어 인식 지표인 PTE를 제안한다. PTE는 memory-bound인 decode 비용을 compute-bound인 prefill 토큰 단위로 환산하여 통합함으로써, 하드웨어 프로필에 무관한 일관된 효율성 평가를 가능하게 한다.#Review#Tool-Integrated Reasoning (TIR)#KV-Cache#PTE (Prefill Token Equivalents)#Inference Efficiency#Hardware-Aware Metric#LLM Agent2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Action Images: End-to-End Policy Learning via Multiview Video Generation본 논문은 7-DoF 로봇 제어 입력을 Action Images로 변환하여 시각적 표현으로 통합하는 방식을 취합니다 . 제안 모델은 Wan 2.2 비디오 백본을 기반으로 하며, RGB 비디오와 Action Images를 결합하여 비디오 공간에서 물리적 동역학을 모델링합니다 .#Review#World Action Model#Robot Policy Learning#Multiview Video Generation#Pixel-grounded Representation#Zero-shot Policy2026년 4월 7일댓글 수 로딩 중
[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].#Review#Code Generation#LLM#Test Reranking#AUC#Discriminative Power#Leave-One-Out#Test Weighting2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw본 논문은 현대 개인용 AI 에이전트가 고도의 자동화와 개인화를 위해 사용하는 Persistent State 가 심각한 보안 취약점을 초래한다는 문제를 해결하고자 합니다.#Review#Personal AI Agents#Persistent State#Security Analysis#CIK Taxonomy#Prompt Injection#Agent Safety#Evolution-Safety Tradeoff2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 . 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다.#Review#Vision-Language Models#Reinforcement Learning#Visual Reasoning#Multi-task Learning#Chain-of-Thought#Data Diversity#Reward Engineering2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing저자들은 샘플의 학습 상태에 따라 적절한 최적화 방식을 할당하는 SRPO (Sample-Routed Policy Optimization)를 제안합니다 . SRPO는 정답 샘플에 대해서는 GRPO의 보상 정렬(reward-aligned) 강화를 적용하고, 오류 샘플 중 피드백 정보가 가용한 경우에는 SDPO의 정밀한 logit 수준 교정을 적용합니다.#Review#RLVR#GRPO#SDPO#Sample Routing#Policy Optimization#Self-Distillation2026년 4월 6일댓글 수 로딩 중
[논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV Compression본 논문은 기존 KV Cache 압축 기법들이 post-RoPE 공간의 제한된 관측치에 의존하여 발생하는 불안정성 문제를 해결하고자 합니다. 기존 방식들은 회전이 적용된 post-RoPE 쿼리를 사용하므로, 대표성 있는 쿼리 확보가 어려워 중요한 토큰이 조기에 삭제되는 현상이 빈번합니다 .#Review#KV Cache#LLM#Attention#RoPE#Compression#Reasoning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models본 연구는 합성 동역학 시스템을 활용한 제어된 실험을 통해 이산적 토큰화(tokenization)가 기하학적 불안정성의 원인임을 입증합니다. 동일한 인코더 백본을 유지한 채 출력 헤드만 이산적인 Cross-Entropy 대신 연속적인 MSE 기반으로 변경했을 때, 기하학적 왜곡이 최대 8.5배 감소함을 확인하였습니다 .#Review#Geometric Alignment Tax#Foundation Models#Tokenization#Manifold Fracture#Rate-Distortion Theory2026년 4월 6일댓글 수 로딩 중
[논문리뷰] SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing본 논문은 공간 편집 능력을 확장하기 위해 체계적인 데이터 생성 엔진인 SpatialEdit-500k와 기하학적 정밀성을 평가하는 SpatialEdit-Bench를 제안한다. SpatialEdit-500k는 Blender를 사용하여 다양한 객체와 장면에서 카메라 궤적과 객체 변환을 포함한 50만 개의 쌍(paired) 데이터를 생성하여 학습을 지원한다 .#Review#Image Spatial Editing#Benchmark#Dataset#Geometry-Aware Evaluation#Camera Manipulation#Object Manipulation#Multimodal Large Models2026년 4월 6일댓글 수 로딩 중
[논문리뷰] SkillX: Automatically Constructing Skill Knowledge Bases for Agents저자들은 에이전트의 경험을 계층적으로 구조화하여 재사용성을 극대화하는 SkillX 프레임워크를 제안합니다 . SkillX는 고성능 backbone 에이전트인 GLM-4.6을 사용하여 훈련 태스크를 수행하고, 성공한 trajectory로부터 Planning, Functional, Atomic 단계의 skill을 증류(distill)합니다.#Review#LLM Agents#Skill Knowledge Base#Hierarchical Representation#Autonomous Experience Learning#Agent Self-Evolution#Tool Use2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Self-Execution Simulation Improves Coding Models본 논문은 LLM이 생성한 코드를 실제로 실행하지 않고도 코드의 실행 결과와 동학(dynamics)을 정확히 예측하도록 훈련하여 프로그래밍 성능을 향상시키는 것을 목표로 합니다.#Review#Code LLM#Execution Simulation#Self-Verification#Self-RLEF#Reinforcement Learning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] SciLT: Long-Tailed Classification in Scientific Image Domains본 논문은 자연 이미지 도메인과 달리 도메인 이동(Domain Shift)과 데이터 분포의 심각한 불균형이 존재하는 과학적 이미지 도메인에서 파운데이션 모델의 미세 조정이 효과적이지 않다는 문제를 해결하고자 합니다.#Review#Long-Tailed Recognition#Scientific Image Domain#Foundation Models#Parameter-Efficient Fine-Tuning#Feature Fusion#Domain Shift#Representation Learning2026년 4월 6일댓글 수 로딩 중