[논문리뷰] Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification본 논문은 최신 LLM 기반 코딩 에이전트들의 복잡한 End-to-End 웹사이트 개발 능력을 체계적으로 평가할 수 있는 표준화된 벤치마크의 부재를 해결하고자 한다.#Review#Multimodal Coding Agents#Website Development#Hierarchical Benchmark#Agent Verification#GUI Agent#VLM-based Judge2026년 4월 1일댓글 수 로딩 중
[논문리뷰] ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?본 논문은 시각적 추론을 측정하기 위해 Physical, Knowledge, Symbolic 세 가지 영역을 포괄하는 ViGoR-Bench를 제안합니다 . 이 프레임워크는 Ground Truth(GT)를 기반으로 하여 모델의 생성 과정을 정밀하게 감시하는 Dual-Track Process-Outcome Evaluation 프로토콜을 구현합니다 .#Review#Visual Generative Models#Visual Reasoning#Evaluation Benchmark#Chain-of-Thought#Process-Outcome Evaluation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Universal YOCO for Efficient Depth Scaling본 논문은 기존 Transformer 기반 LLM의 추론 시간(Test-time) 계산 확장 효율성 문제를 해결하기 위해 제안되었습니다. 표준 Transformer에 단순 루핑 기법을 적용하면 계산 복잡도가 급증하고, 모델 깊이에 따라 KV cache 요구량이 선형적으로 증가하여 메모리 비용이 매우 커집니다.#Review#Large Language Models#Recursive Computation#YOCO#Depth Scaling#Inference Efficiency#KV Cache#Decoder-Decoder Architecture2026년 4월 1일댓글 수 로딩 중
[논문리뷰] UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems본 논문은 기존 Recommendation 시스템의 Scaling 아키텍처들이 서로 파편화되어 최적의 효율성을 달성하지 못하는 문제를 해결합니다.#Review#Recommendation Systems#Scaling Laws#UniMixer#Feature Interaction#TokenMixer#Unified Architecture2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference본 논문은 현대 LLM 추론에서 필수적인 긴 컨텍스트 처리 기법들이 파편화된 메모리 처리 구조로 인해 상당한 성능 저하를 일으킨다는 문제를 해결하고자 한다. 기존 LLM 최적화 방법들은 주로 개별적인 알고리즘 개선에 집중해 왔으며, 하드웨어 수준에서의 체계적인 가속 프레임워크가 부족하다는 한계가 있다.#Review#LLM Inference#Memory Processing Pipeline#Heterogeneous Systems#GPU-FPGA#Sparse Attention#Retrieval-Augmented Generation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding본 논문은 3D-VG 작업을 'Think(추론)', 'Act(도구 호출)', 'Build(재구성)' 단계로 세분화한 TAB 프레임워크를 제안합니다 . TAB은 고정된 파이프라인 대신, 전문적인 3D-VG Skill blueprint에 따라 VLM 에이전트가 능동적으로 visual tool을 호출하여 타겟을 추적하고 마스크를 생성합니다.#Review#3D Visual Grounding#Vision-Language Models#Agentic Framework#RGB-D#Zero-Shot#Geometric Reconstruction2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Terminal Agents Suffice for Enterprise Automation저자들은 터미널과 파일시스템을 통해 플랫폼 API와 직접 통신하는 최소한의 코딩 에이전트인 StarShell을 제안합니다 . StarShell은 사전 정의된 도구 레지스트리에 의존하지 않고, 문서나 API 응답을 통해 능동적으로 기능을 발견하고 작업을 구성합니다.#Review#Enterprise Automation#Agentic Systems#Terminal-based Agents#API Interaction#Model Context Protocol (MCP)#Coding Agents2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines본 논문은 Four-Condition Design을 통해 성능 이득을 Additive하게 분해하는 프레임워크를 제안합니다. 이 방법론은 Generator 기반 성능($x_1$), 표준 Revision($x_2$), 독립 재해결 제어($x_3$), 구조화된 Null 초안 제어($x_4$)를 비교하여 세 가지 효과를 각각 산출합니다.#Review#Multi-LLM Pipeline#Iterative Refinement#Self-Correction#Task-Time Scaling#Code Generation#MCQ2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Reasoning Shift: How Context Silently Shortens LLM Reasoning본 연구는 모델이 동일한 문제를 Baseline, Subtask, Long input, Multi-turn 등 서로 다른 4가지 Context 조건에서 해결하도록 설계하여 추론 성능과 생성된 토큰 수를 측정했습니다. 실험 결과, 모델은 고립된 환경(Baseline) 대비 다른 조건들에서 최대 50%까지 짧은 추론 트레이스를 생성하는 현상을 보였습니다.#Review#Large Language Models#Chain-of-Thought#Test-time Scaling#Context Management#Reasoning Shift#Self-verification#Overthinking2026년 4월 1일댓글 수 로딩 중
[논문리뷰] QuitoBench: A High-Quality Open Time Series Forecasting Benchmark시계열 예측 분야는 데이터 규모와 품질의 부족으로 인해 모델 평가의 신뢰성 위기에 직면해 있다.#Review#Time Series Forecasting#Benchmark#TSF Regime#Foundation Models#Deep Learning#Data Scaling#Forecastability2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants본 논문은 기존 proactive agent 연구들이 실제 환경에서의 사용자 상호작용을 반영하지 못하고 정적인 데이터셋에 의존한다는 점을 문제로 지적합니다.#Review#Proactive Assistant#User Simulation#Finite State Machine#Stackelberg POMDP#Multi-app Orchestration#Asymmetric Evaluation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning본 논문은 기존의 영상 이해 벤치마크가 대부분 단일 시점 정보만으로 해결 가능하거나, 지나치게 논리적 구조에만 치중되어 있어 모델의 실질적인 시각적 추론 능력을 평가하기 어렵다는 문제를 제기한다.#Review#Video Benchmark#Multimodal Reasoning#Perception-Centric#Long-Horizon#Test-Time Thinking2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers본 논문은 현대의 코딩 에이전트가 작성한 과학 논문의 품질을 신뢰할 수 있게 평가할 체계적인 프레임워크가 부재하다는 문제점을 해결하고자 합니다.#Review#AI-driven scientific writing#Paper Reconstruction Evaluation#Presentation Quality#Hallucination Analysis#PaperWrite-Bench2026년 4월 1일댓글 수 로딩 중
[논문리뷰] MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome본 논문은 기존 deep research 시스템 평가가 실사용자의 복잡한 요구사항을 충분히 반영하지 못하는 한계점을 해결하기 위해 MiroEval 을 제안한다. 기존 연구들은 주로 정적인 과제를 사용하고 최종 보고서의 품질만을 평가하며, 연구 수행 과정(process)에 대한 감사가 결여되어 있다는 한계가 있다.#Review#Deep Research#Multimodal Benchmark#Process-Centric Evaluation#Factuality Verification#Agentic Systems#Adaptive Synthesis2026년 4월 1일댓글 수 로딩 중
[논문리뷰] MemRerank: Preference Memory for Personalized Product Reranking저자들은 사용자 구매 이력을 within-category와 cross-category 선호도로 구분하여 추출하는 Memory Extractor 모델을 설계하였다. 이 추출기는 재순위화 작업의 성능을 극대화하기 위해 GRPO 기반의 강화학습으로 post-training 되며, 이를 통해 별도의 Gold Label 없이도 재순위화 보상을 직접 최적화한다 .#Review#Recommender Systems#Large Language Models#Product Reranking#Preference Memory#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중
[논문리뷰] MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation기존 VLA 모델들은 hierarchical 구조나 autoregressive 패러다임에 의존함으로써 발생하는 아키텍처 오버헤드, 장기적 시간 일관성 결여, 그리고 환경 역학(environment dynamics)을 파악하는 명시적 메커니즘 부족이라는 한계에 직면해 있습니다.#Review#Vision-Language-Action (VLA)#Discrete Diffusion#Multi-modal Generation#Robotic Manipulation#Action Chunking#World Model#Hybrid Attention2026년 4월 1일댓글 수 로딩 중
[논문리뷰] HippoCamp: Benchmarking Contextual Agents on Personal ComputersHippoCamp는 100명 이상의 실제 사용자 데이터를 기반으로 2,000개 이상의 이질적인 파일을 포함하는 3개의 대표적인 개인 컴퓨팅 환경을 구축하였습니다. 각 환경에는 Factual Retention 및 Profiling 태스크를 위한 581개의 QA 쌍이 존재하며, 이를 위해 46.1K개의 정교한 주석(Annotation)이 제공됩니다.#Review#Multimodal Agents#File-System#Contextual Benchmarking#Personalized Memory#Profiling#Factual Retention2026년 4월 1일댓글 수 로딩 중
[논문리뷰] GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation본 논문은 기존 3D 생성 모델들이 주로 사용하는 전체적(holistic)인 Denoising이나 Diffusion 방식이 3D 환경의 점진적 구축과 편집에 부적합하다는 문제를 해결하고자 한다. 기존 방식은 고정된 장면을 한 번에 생성하는 경향이 있어, 실제 환경처럼 점진적으로 확장하거나 수정하는 유연성이 부족하다.#Review#3D Gaussian Splatting#Autoregressive Modeling#Scene Generation#Transformer#Vector Quantization#3D Scene Completion2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Embarrassingly Simple Self-Distillation Improves Code Generation본 논문은 LLM의 코드 생성 능력을 향상하기 위해 외부의 고품질 인간 작성 데이터나 복잡한 강화 학습(RL) 파이프라인 없이 모델 스스로 개선될 수 있는지에 대한 의문을 제기합니다.#Review#Self-Distillation#Code Generation#Large Language Models#Precision-Exploration Conflict#Supervised Fine-Tuning#Temperature Scaling#Truncation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers본 논문은 OpenClaw와 같은 현대 자율 에이전트 런타임이 가지는 높은 권한 모델로 인해 발생하는 시스템 수준의 보안 취약점을 해결하기 위해 제안되었습니다.#Review#Autonomous Agents#OpenClaw#Security Framework#Watcher Architecture#Safety-Utility Tradeoff#Behavioral Scanning#Runtime Enforcement2026년 4월 1일댓글 수 로딩 중