최신 포스트

[논문리뷰] On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

최신 Text-to-Image(T2I) 모델들은 정교한 문맥 정렬 성능을 보이지만, Typicality Bias 로 인해 생성 결과가 좁은 범위의 시각적 해법에 고착되는 문제가 있습니다.

#Review #Diffusion Transformers #Generative Diversity #Contextual Space #Repulsion Mechanism #Multi-modal Attention #Typicality Bias #Token Intervention

2026년 3월 30일

[논문리뷰] On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models

LVLM은 다양한 도메인에서 우수한 성능을 보이지만, 새로운 지식을 연속적으로 습득할 때 기존 지식을 잃어버리는 'Catastrophic Forgetting' 문제가 존재합니다.

#Review #Multimodal Continual Learning #Large Vision Language Models #Mixture of Experts #Routing-drift #Catastrophic Forgetting

2026년 3월 30일

[논문리뷰] MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences

기존의 multimodal agent는 전체 interaction history를 기억하거나 trajectory 단위로 과거 경험을 검색하는 방식을 주로 사용해왔습니다.

#Review #Multimodal Agent #Stateful Experience #Hindsight Reasoning #Compositional State Representation #Deep-and-Wide Search #Visual Reasoning

2026년 3월 30일

[논문리뷰] MolmoPoint: Better Pointing for VLMs with Grounding Tokens

기존의 VLM들은 포인팅을 위해 텍스트 기반의 좌표를 생성하는 방식을 주로 사용해 왔습니다. 그러나 이러한 방식은 복잡한 좌표 시스템을 학습해야 하며, 토큰 사용량이 많아 효율성이 떨어지는 한계가 있습니다 .

#Review #Vision-Language Models #Grounding Tokens #Pointing #GUI Grounding #Video Grounding #Sample Efficiency

2026년 3월 30일

[논문리뷰] Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

최근 Deep Research 분야는 급격히 발전했으나, 기존 에이전트 시스템은 QA 데이터 합성, 궤적 생성, 추론 단계에서 명시적인 검증 기법이 부재하다는 치명적인 한계를 가진다. 이로 인해 초기 단계의 오류가 하위 단계로 전파되어 전체 성능을 크게 저하시키는 문제가 발생한다 .

#Review #Deep Research #Agentic Search #Verification-Centric Design #Data Synthesis #Test-time Scaling #ReAct #Multi-agent Systems

2026년 3월 30일

[논문리뷰] Make Geometry Matter for Spatial Reasoning

최근 VLMs는 광범위한 훈련을 통해 일반적인 영상 이해 능력은 향상되었으나, 3D 공간상의 물체 관계나 움직임을 파악하는 Spatial Reasoning 에는 여전히 한계를 보입니다.

#Review #Vision-Language Models #Spatial Reasoning #Geometry Tokens #Token Masking #Gated Routing

2026년 3월 30일

[논문리뷰] MOOZY: A Patient-First Foundation Model for Computational Pathology

현재 병리 인공지능 분야의 파운데이션 모델들은 주로 Slide-centric 구조에 머물러 있어, 한 환자의 여러 슬라이드 간의 임상적 연관성을 효과적으로 모델링하지 못한다는 한계가 있습니다.

#Review #Computational Pathology #Foundation Model #Patient-First Representation #Multi-Instance Learning #Self-Supervised Learning #Case Transformer

2026년 3월 30일

[논문리뷰] Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

현대적인 대규모 모델 시스템과 과학 컴퓨팅 분야에서 고성능 GPU 커널 최적화는 하드웨어 성능을 실질적인 Throughput으로 전환하는 핵심 요소입니다.

#Review #GPU Kernel Optimization #Large Language Models #Evolutionary Algorithms #Reinforcement Learning #Triton #MetaX MACA #System Optimization

2026년 3월 30일

[논문리뷰] KAT-Coder-V2 Technical Report

Agentic Coding은 단순 코드 생성을 넘어 복잡한 리포지토리 상호작용과 도구 호출을 요구하며, 이는 단일 학습 파이프라인으로는 최적화하기 어려운 복합적인 도메인들을 포함합니다. 기존 연구들은 환경 인프라가 에이전트 스캐폴드와 강하게 결합되어 있어 새로운 데이터셋이나 스캐폴드 통합이 비효율적이라는 한계가 있습니다.

#Review #Agentic Coding #Specialize-then-Unify #KwaiEnv #Reinforcement Learning #On-Policy Distillation #Tree Training

2026년 3월 30일

[논문리뷰] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

최근 Diffusion, Autoregressive, 하이브리드 아키텍처의 발전으로 이미지 생성 및 편집 분야는 크게 도약했으나, 기존 벤치마크들은 특정 작업에만 국한되거나 좁은 도메인에 편향되어 실무적인 포괄성이 부족합니다 .

#Review #Image Generation #Image Editing #Benchmark #Human Evaluation #Explainable AI #Multimodal Learning

2026년 3월 30일

[논문리뷰] HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention

최근 Long-context LLM 환경에서 Token-level sparse attention 은 필수적인 연산 효율화 기법으로 자리 잡았으나, 이를 위한 핵심 모듈인 indexer가 여전히 full-prefix scan 을 수행하며 𝒪(L²) 의 연산 병목을 유발합니다.

#Review #Sparse Attention #Hierarchical Indexing #Long Context #LLM Inference #Computational Efficiency #DeepSeek

2026년 3월 30일

[논문리뷰] Gen-Searcher: Reinforcing Agentic Search for Image Generation

최신 텍스트-이미지 생성 모델들은 놀라운 시각적 품질을 보여주지만, 학습 과정에서 습득한 고정된 지식에 의존한다는 근본적인 한계를 지닙니다. 특히 실시간 정보가 필요하거나 지식 집약적인 프롬프트가 주어질 경우, 모델은 올바른 시각적 참조 없이 이미지를 생성하여 factual error나 시각적 왜곡을 초래합니다.

#Review #Agentic AI #Image Generation #Multi-hop Search #Reinforcement Learning #Grounded Generation #Multimodal Agent

2026년 3월 30일

[논문리뷰] GEditBench v2: A Human-Aligned Benchmark for General Image Editing

최근 Instruction-based image editing 모델은 비약적으로 발전했으나, 기존 평가 프레임워크는 이를 따라가지 못하고 있습니다. 대부분의 벤치마크는 정의된 태스크 범위가 좁아 실제 환경의 일반화 능력을 평가하기 어렵습니다.

#Review #Image Editing #Benchmark #Visual Consistency #Pairwise Evaluation #Human-Aligned #VLM-as-a-Judge

2026년 3월 30일

[논문리뷰] EpochX: Building the Infrastructure for an Emergent Agent Civilization

현재의 AI 에이전트 연구는 개별 에이전트의 지능을 높이는 데 집중되어 있으나, 실제 경제적 가치를 창출하기 위해서는 이를 조직화하고 협업하게 만드는 인프라가 필수적입니다. 기존의 많은 에이전트 플랫폼은 작업 실행을 일회성 이벤트로 간주하여, 결과물이 축적되지 않고 유실되는 한계가 있습니다.

#Review #Agentic AI #Marketplace Infrastructure #Credit Mechanism #Human-Agent Collaboration #Persistent Ecosystem Assets

2026년 3월 30일

[논문리뷰] Emergent Social Intelligence Risks in Generative Multi-Agent Systems

대형 생성 모델 기반의 MAS 가 복잡한 업무를 자동화하며 실제 환경에 빠르게 도입되고 있으나, 에이전트 간의 상호작용에서 발생하는 Emergent multi-agent risks 에 대한 체계적인 연구는 부족합니다.

#Review #Multi-Agent Systems #Generative Models #Social Intelligence #Emergent Risks #Incentive Exploitation #Collective Cognition #Adaptive Governance

2026년 3월 30일

[논문리뷰] DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing

최근 diffusion model은 T2I generation과 text-guided editing 분야에서 비약적인 발전을 이루었으나, 대부분 수십억 개의 파라미터를 필요로 하여 온디바이스 환경에서의 배포에 한계가 있다.

#Review #Diffusion Models #On-device AI #Image Generation #Image Editing #Unified Architecture #Task-progressive Pretraining

2026년 3월 30일

[논문리뷰] Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio

기존의 Soft context compression 연구들은 정적인(Static) 압축 비율을 적용하여 언어 데이터의 가변적인 정보 밀도를 효과적으로 반영하지 못하는 한계가 있습니다.

#Review #Soft Context Compression #Large Language Models #Density-aware #Discrete Ratio Selector #Supervised Fine-Tuning #Mean-Pooling

2026년 3월 30일

[gradio] Gradio SSE 라우트의 폴링 제거를 통한 성능 최적화

Gradio의 SSE 통신에서 비효율적인 폴링 방식을 제거하고, asyncio.Queue를 활용한 이벤트 기반 대기 방식으로 전환하여 오버헤드를 획기적으로 줄였습니다.

#Gradio #Python #asyncio #Performance #SSE

2026년 3월 30일

[Ray] LLM 추론 벤치마크 엔진에 동시성 모드와 일정 QPS 모드 추가

다중 턴 LLM 벤치마크를 위한 Concurrency 모드(closed-loop)와 Rate 모드(constant-QPS)를 도입하고, 정확한 토큰 수 텍스트 생성기와 엔트로피 기반 웜업을 구현한 분석.

#Ray #Python #LLM #Benchmark #Performance #Concurrency

2026년 3월 30일

[triton] AMD GPU Descriptor Encoding 최적화 패스 추가

AMD GFX1250 타겟에서 tensor descriptor의 shared memory encoding을 padded 방식으로 최적화하는 OptimizeDescriptorEncoding 패스를 추가한 PR을 분석합니다.

#Triton #AMD GPU #Tensor Descriptor #Shared Memory #Optimization

2026년 3월 30일