[논문리뷰] Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization현대적인 대규모 모델 시스템과 과학 컴퓨팅 분야에서 고성능 GPU 커널 최적화는 하드웨어 성능을 실질적인 Throughput으로 전환하는 핵심 요소입니다.#Review#GPU Kernel Optimization#Large Language Models#Evolutionary Algorithms#Reinforcement Learning#Triton#MetaX MACA#System Optimization2026년 3월 30일댓글 수 로딩 중
[논문리뷰] KAT-Coder-V2 Technical ReportAgentic Coding은 단순 코드 생성을 넘어 복잡한 리포지토리 상호작용과 도구 호출을 요구하며, 이는 단일 학습 파이프라인으로는 최적화하기 어려운 복합적인 도메인들을 포함합니다. 기존 연구들은 환경 인프라가 에이전트 스캐폴드와 강하게 결합되어 있어 새로운 데이터셋이나 스캐폴드 통합이 비효율적이라는 한계가 있습니다.#Review#Agentic Coding#Specialize-then-Unify#KwaiEnv#Reinforcement Learning#On-Policy Distillation#Tree Training2026년 3월 30일댓글 수 로딩 중
[논문리뷰] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks최근 Diffusion, Autoregressive, 하이브리드 아키텍처의 발전으로 이미지 생성 및 편집 분야는 크게 도약했으나, 기존 벤치마크들은 특정 작업에만 국한되거나 좁은 도메인에 편향되어 실무적인 포괄성이 부족합니다 .#Review#Image Generation#Image Editing#Benchmark#Human Evaluation#Explainable AI#Multimodal Learning2026년 3월 30일댓글 수 로딩 중
[논문리뷰] HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention최근 Long-context LLM 환경에서 Token-level sparse attention 은 필수적인 연산 효율화 기법으로 자리 잡았으나, 이를 위한 핵심 모듈인 indexer가 여전히 full-prefix scan 을 수행하며 𝒪(L²) 의 연산 병목을 유발합니다.#Review#Sparse Attention#Hierarchical Indexing#Long Context#LLM Inference#Computational Efficiency#DeepSeek2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Gen-Searcher: Reinforcing Agentic Search for Image Generation최신 텍스트-이미지 생성 모델들은 놀라운 시각적 품질을 보여주지만, 학습 과정에서 습득한 고정된 지식에 의존한다는 근본적인 한계를 지닙니다. 특히 실시간 정보가 필요하거나 지식 집약적인 프롬프트가 주어질 경우, 모델은 올바른 시각적 참조 없이 이미지를 생성하여 factual error나 시각적 왜곡을 초래합니다.#Review#Agentic AI#Image Generation#Multi-hop Search#Reinforcement Learning#Grounded Generation#Multimodal Agent2026년 3월 30일댓글 수 로딩 중
[논문리뷰] GEditBench v2: A Human-Aligned Benchmark for General Image Editing최근 Instruction-based image editing 모델은 비약적으로 발전했으나, 기존 평가 프레임워크는 이를 따라가지 못하고 있습니다. 대부분의 벤치마크는 정의된 태스크 범위가 좁아 실제 환경의 일반화 능력을 평가하기 어렵습니다.#Review#Image Editing#Benchmark#Visual Consistency#Pairwise Evaluation#Human-Aligned#VLM-as-a-Judge2026년 3월 30일댓글 수 로딩 중
[논문리뷰] EpochX: Building the Infrastructure for an Emergent Agent Civilization현재의 AI 에이전트 연구는 개별 에이전트의 지능을 높이는 데 집중되어 있으나, 실제 경제적 가치를 창출하기 위해서는 이를 조직화하고 협업하게 만드는 인프라가 필수적입니다. 기존의 많은 에이전트 플랫폼은 작업 실행을 일회성 이벤트로 간주하여, 결과물이 축적되지 않고 유실되는 한계가 있습니다.#Review#Agentic AI#Marketplace Infrastructure#Credit Mechanism#Human-Agent Collaboration#Persistent Ecosystem Assets2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Emergent Social Intelligence Risks in Generative Multi-Agent Systems대형 생성 모델 기반의 MAS 가 복잡한 업무를 자동화하며 실제 환경에 빠르게 도입되고 있으나, 에이전트 간의 상호작용에서 발생하는 Emergent multi-agent risks 에 대한 체계적인 연구는 부족합니다.#Review#Multi-Agent Systems#Generative Models#Social Intelligence#Emergent Risks#Incentive Exploitation#Collective Cognition#Adaptive Governance2026년 3월 30일댓글 수 로딩 중
[논문리뷰] DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing최근 diffusion model은 T2I generation과 text-guided editing 분야에서 비약적인 발전을 이루었으나, 대부분 수십억 개의 파라미터를 필요로 하여 온디바이스 환경에서의 배포에 한계가 있다.#Review#Diffusion Models#On-device AI#Image Generation#Image Editing#Unified Architecture#Task-progressive Pretraining2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio기존의 Soft context compression 연구들은 정적인(Static) 압축 비율을 적용하여 언어 데이터의 가변적인 정보 밀도를 효과적으로 반영하지 못하는 한계가 있습니다.#Review#Soft Context Compression#Large Language Models#Density-aware#Discrete Ratio Selector#Supervised Fine-Tuning#Mean-Pooling2026년 3월 30일댓글 수 로딩 중
[gradio] Gradio SSE 라우트의 폴링 제거를 통한 성능 최적화Gradio의 SSE 통신에서 비효율적인 폴링 방식을 제거하고, asyncio.Queue를 활용한 이벤트 기반 대기 방식으로 전환하여 오버헤드를 획기적으로 줄였습니다.#Gradio#Python#asyncio#Performance#SSE2026년 3월 30일댓글 수 로딩 중
[Ray] LLM 추론 벤치마크 엔진에 동시성 모드와 일정 QPS 모드 추가다중 턴 LLM 벤치마크를 위한 Concurrency 모드(closed-loop)와 Rate 모드(constant-QPS)를 도입하고, 정확한 토큰 수 텍스트 생성기와 엔트로피 기반 웜업을 구현한 분석.#Ray#Python#LLM#Benchmark#Performance#Concurrency2026년 3월 30일댓글 수 로딩 중
[triton] AMD GPU Descriptor Encoding 최적화 패스 추가AMD GFX1250 타겟에서 tensor descriptor의 shared memory encoding을 padded 방식으로 최적화하는 OptimizeDescriptorEncoding 패스를 추가한 PR을 분석합니다.#Triton#AMD GPU#Tensor Descriptor#Shared Memory#Optimization2026년 3월 30일댓글 수 로딩 중
[CPython] SyntaxError 재초기화 시 메모리 누수 수정SyntaxError 객체를 __init__으로 재초기화할 때 기존 속성의 참조가 해제되지 않아 발생하던 메모리 누수를 Py_XSETREF로 수정한 분석.#CPython#SyntaxError#Memory Leak#Reference Counting#Bug Fix#C2026년 3월 30일댓글 수 로딩 중
[CPython 3.13] SyntaxError 재초기화 시 메모리 누수 수정 (backport)SyntaxError __init__ 재호출 시 기존 속성의 참조가 누수되던 문제를 Py_XSETREF로 수정한 3.13 backport 분석.#CPython#SyntaxError#Memory Leak#Backport#Bug Fix#C2026년 3월 30일댓글 수 로딩 중
[sglang] CI 테스트 최적화: MXFP8 Gemm에 오프라인 양자화 체크포인트 적용SGLang CI에서 MXFP8 Gemm 테스트를 온라인 양자화 대신 사전 양자화된 체크포인트로 전환하여 테스트 안정성과 속도를 개선한 분석.#SGLang#CI#FlashInfer#MXFP8#Quantization#Testing2026년 3월 30일댓글 수 로딩 중
[CPython] dict 접근 최적화: known hash를 활용한 중복 해시 계산 제거CPython의 dict 자료구조에서 이미 알고 있는 hash 값을 활용하여 중복 해시 연산을 제거하는 JIT/인터프리터 최적화 분석.#CPython#Performance#Dict#JIT#Optimization#C2026년 3월 30일댓글 수 로딩 중
[sglang] Qwen3.5 MoE 모델 로딩 및 Mamba 캐시 PP 모드 샤딩 수정SGLang에서 Qwen3.5 MoE 모델의 Pipeline Parallelism 로딩 시 weight 필터링 누락과 Mamba 캐시 레이어 범위 계산 오류를 수정한 분석.#SGLang#Qwen3.5#MoE#Pipeline Parallelism#Mamba#Bug Fix2026년 3월 30일댓글 수 로딩 중
[vllm] DFlash - Block Diffusion 기반 Speculative DecodingDFlash 알고리즘을 vLLM에 통합하여 GSM8k에서 acceptance length 6.54를 달성하는 고효율 추론 가속#vllm#Performance2026년 3월 30일댓글 수 로딩 중
[Open WebUI] 공유 채팅 삭제 시 전체 행 대신 ID만 조회하여 메모리 절약delete_shared_chats_by_user_id에서 Chat 전체를 로드하던 쿼리를 Chat.id만 프로젝션하도록 변경하여 JSON 데이터 로드 비용을 제거한 최적화.#Open WebUI#Python#Performance#SQLAlchemy#Query Optimization2026년 3월 30일댓글 수 로딩 중