Review

[논문리뷰] Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

최근 Deep Research 분야는 급격히 발전했으나, 기존 에이전트 시스템은 QA 데이터 합성, 궤적 생성, 추론 단계에서 명시적인 검증 기법이 부재하다는 치명적인 한계를 가진다. 이로 인해 초기 단계의 오류가 하위 단계로 전파되어 전체 성능을 크게 저하시키는 문제가 발생한다 .

#Review #Deep Research #Agentic Search #Verification-Centric Design #Data Synthesis #Test-time Scaling #ReAct #Multi-agent Systems

2026년 3월 30일

[논문리뷰] Make Geometry Matter for Spatial Reasoning

최근 VLMs는 광범위한 훈련을 통해 일반적인 영상 이해 능력은 향상되었으나, 3D 공간상의 물체 관계나 움직임을 파악하는 Spatial Reasoning 에는 여전히 한계를 보입니다.

#Review #Vision-Language Models #Spatial Reasoning #Geometry Tokens #Token Masking #Gated Routing

2026년 3월 30일

[논문리뷰] MOOZY: A Patient-First Foundation Model for Computational Pathology

현재 병리 인공지능 분야의 파운데이션 모델들은 주로 Slide-centric 구조에 머물러 있어, 한 환자의 여러 슬라이드 간의 임상적 연관성을 효과적으로 모델링하지 못한다는 한계가 있습니다.

#Review #Computational Pathology #Foundation Model #Patient-First Representation #Multi-Instance Learning #Self-Supervised Learning #Case Transformer

2026년 3월 30일

[논문리뷰] Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

현대적인 대규모 모델 시스템과 과학 컴퓨팅 분야에서 고성능 GPU 커널 최적화는 하드웨어 성능을 실질적인 Throughput으로 전환하는 핵심 요소입니다.

#Review #GPU Kernel Optimization #Large Language Models #Evolutionary Algorithms #Reinforcement Learning #Triton #MetaX MACA #System Optimization

2026년 3월 30일

[논문리뷰] KAT-Coder-V2 Technical Report

Agentic Coding은 단순 코드 생성을 넘어 복잡한 리포지토리 상호작용과 도구 호출을 요구하며, 이는 단일 학습 파이프라인으로는 최적화하기 어려운 복합적인 도메인들을 포함합니다. 기존 연구들은 환경 인프라가 에이전트 스캐폴드와 강하게 결합되어 있어 새로운 데이터셋이나 스캐폴드 통합이 비효율적이라는 한계가 있습니다.

#Review #Agentic Coding #Specialize-then-Unify #KwaiEnv #Reinforcement Learning #On-Policy Distillation #Tree Training

2026년 3월 30일

[논문리뷰] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

최근 Diffusion, Autoregressive, 하이브리드 아키텍처의 발전으로 이미지 생성 및 편집 분야는 크게 도약했으나, 기존 벤치마크들은 특정 작업에만 국한되거나 좁은 도메인에 편향되어 실무적인 포괄성이 부족합니다 .

#Review #Image Generation #Image Editing #Benchmark #Human Evaluation #Explainable AI #Multimodal Learning

2026년 3월 30일

[논문리뷰] HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention

최근 Long-context LLM 환경에서 Token-level sparse attention 은 필수적인 연산 효율화 기법으로 자리 잡았으나, 이를 위한 핵심 모듈인 indexer가 여전히 full-prefix scan 을 수행하며 𝒪(L²) 의 연산 병목을 유발합니다.

#Review #Sparse Attention #Hierarchical Indexing #Long Context #LLM Inference #Computational Efficiency #DeepSeek

2026년 3월 30일

[논문리뷰] Gen-Searcher: Reinforcing Agentic Search for Image Generation

최신 텍스트-이미지 생성 모델들은 놀라운 시각적 품질을 보여주지만, 학습 과정에서 습득한 고정된 지식에 의존한다는 근본적인 한계를 지닙니다. 특히 실시간 정보가 필요하거나 지식 집약적인 프롬프트가 주어질 경우, 모델은 올바른 시각적 참조 없이 이미지를 생성하여 factual error나 시각적 왜곡을 초래합니다.

#Review #Agentic AI #Image Generation #Multi-hop Search #Reinforcement Learning #Grounded Generation #Multimodal Agent

2026년 3월 30일

[논문리뷰] GEditBench v2: A Human-Aligned Benchmark for General Image Editing

최근 Instruction-based image editing 모델은 비약적으로 발전했으나, 기존 평가 프레임워크는 이를 따라가지 못하고 있습니다. 대부분의 벤치마크는 정의된 태스크 범위가 좁아 실제 환경의 일반화 능력을 평가하기 어렵습니다.

#Review #Image Editing #Benchmark #Visual Consistency #Pairwise Evaluation #Human-Aligned #VLM-as-a-Judge

2026년 3월 30일

[논문리뷰] EpochX: Building the Infrastructure for an Emergent Agent Civilization

현재의 AI 에이전트 연구는 개별 에이전트의 지능을 높이는 데 집중되어 있으나, 실제 경제적 가치를 창출하기 위해서는 이를 조직화하고 협업하게 만드는 인프라가 필수적입니다. 기존의 많은 에이전트 플랫폼은 작업 실행을 일회성 이벤트로 간주하여, 결과물이 축적되지 않고 유실되는 한계가 있습니다.

#Review #Agentic AI #Marketplace Infrastructure #Credit Mechanism #Human-Agent Collaboration #Persistent Ecosystem Assets

2026년 3월 30일

[논문리뷰] Emergent Social Intelligence Risks in Generative Multi-Agent Systems

대형 생성 모델 기반의 MAS 가 복잡한 업무를 자동화하며 실제 환경에 빠르게 도입되고 있으나, 에이전트 간의 상호작용에서 발생하는 Emergent multi-agent risks 에 대한 체계적인 연구는 부족합니다.

#Review #Multi-Agent Systems #Generative Models #Social Intelligence #Emergent Risks #Incentive Exploitation #Collective Cognition #Adaptive Governance

2026년 3월 30일

[논문리뷰] DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing

최근 diffusion model은 T2I generation과 text-guided editing 분야에서 비약적인 발전을 이루었으나, 대부분 수십억 개의 파라미터를 필요로 하여 온디바이스 환경에서의 배포에 한계가 있다.

#Review #Diffusion Models #On-device AI #Image Generation #Image Editing #Unified Architecture #Task-progressive Pretraining

2026년 3월 30일

[논문리뷰] Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio

기존의 Soft context compression 연구들은 정적인(Static) 압축 비율을 적용하여 언어 데이터의 가변적인 정보 밀도를 효과적으로 반영하지 못하는 한계가 있습니다.

#Review #Soft Context Compression #Large Language Models #Density-aware #Discrete Ratio Selector #Supervised Fine-Tuning #Mean-Pooling

2026년 3월 30일

[논문리뷰] Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

Large Language Model (LLM) 기반의 Agent는 복잡한 태스크를 해결하기 위해 Domain-specific Skill에 대한 의존도가 높아지고 있습니다.

#Review #LLM Agents #Skill Evolution #Trajectory Analysis #Inductive Reasoning #Transferable Skills #Conflict-Free Consolidation

2026년 3월 29일

[논문리뷰] Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

AI 패러다임이 Text-based LLMs에서 Speech Language Models (SLMs)로 전환됨에 따라, 실시간의 자연스러운 Human-Computer Interaction을 지원하는 Full-duplex system 에 대한 수요가 증가하고 있습니다.

#Review #Full-duplex Speech #Data Pre-processing #Speaker Diarization #Overlap Separation #ASR Ensemble #Speech Language Models

2026년 3월 29일

[논문리뷰] ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

최근 Text-to-Video Model들은 단일 쇼트(single-shot) 비디오 생성에서 높은 성능을 보이지만, 영화나 TV와 같은 긴 서사적 스토리텔링(Long-form Narrative Storytelling)을 위해서는 Multi-shot Video Generation 이 필수적입니다.

#Review #Multi-Shot Video Generation #Interactive Storytelling #Causal Architecture #Distribution Matching Distillation #Self Forcing #Dual-Cache Memory #RoPE Discontinuity Indicator

2026년 3월 29일

[논문리뷰] RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

Vision-Language Models (VLMs)는 다양한 도메인에서 인상적인 코드 생성 능력을 보여주었지만, 복잡한 멀티패널 시각화를 실제 데이터로부터 재현하는 능력 은 아직 충분히 평가되지 않았다.

2026년 3월 29일

[논문리뷰] PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

최근 autoregressive video diffusion models 는 상당한 발전을 이루었지만, 장시간 비디오 생성 시 발생하는 몇 가지 주요 제약 사항들에 직면해 있다.

#Review #Autoregressive Video Generation #KV Cache Management #Long Context Inference #Video Diffusion Models #Temporal Consistency #Spatiotemporal Compression #RoPE Adjustment #Dynamic Context Selection

2026년 3월 29일

[논문리뷰] Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Video World Models는 물리적인 세계를 시뮬레이션하는 데 막대한 잠재력을 보여주지만, 기존 Memory Mechanism들은 환경을 주로 Static Canvas로 간주하는 한계를 가지고 있다.

#Review #Video World Models #Hybrid Memory #Dynamic Retrieval Attention #HM-World Dataset #Spatiotemporal Consistency

2026년 3월 29일

[논문리뷰] Natural-Language Agent Harnesses

Agent의 성능은 점점 더 harness engineering에 의존하고 있지만, 기존의 harness 디자인은 컨트롤러 코드와 런타임 특정(runtime-specific) 관습에 파묻혀 있어, 이를 과학적 대상으로 전이(transfer), 비교(compare), 연구(study)하기 어렵다는 문제가 있습니다.

2026년 3월 29일