최신 포스트

[논문리뷰] ProMSA:Progressive Multimodal Search Agents for Knowledge-Based Visual Question Answering

본 논문은 KB-VQA의 고질적인 문제인 정적인 파이프라인의 한계를 극복하고, 모델이 예산 효율적으로 정보를 검색하며 스스로 추론하는 에이전트 시스템을 구축하는 것을 목적으로 한다. 기존 연구들은 고정된 top-k 설정에 의존하여 검색된 정보가 불충분하거나 잘못된 경우 이를 수정할 수 없는 고착 상태에 빠지기 쉽다 .

#Review #Knowledge-Based Visual Question Answering #Multimodal Search Agent #Progressive Retrieval #Reinforcement Learning #Tool-Normalized GSPO

2026년 6월 28일

[논문리뷰] PhysisForcing: Physics Reinforced World Simulator for Robotic Manipulation

본 논문은 최신 비디오 생성 모델들이 로봇 조작 과업에서 나타내는 물리적 불일치(Physical implausibility) 문제를 해결하고자 합니다.

#Review #Embodied Intelligence #Video Generation #World Models #Physics-aware #Robotic Manipulation #Hierarchical Alignment

2026년 6월 28일

[논문리뷰] Parallel Rollout Approximation for Pixel-Space Autoregressive Image Generation

본 논문은 픽셀 공간에서 직접 수행되는 Autoregressive 이미지 생성의 낮은 효율성과 오차 누적 문제를 해결하는 것을 목적으로 합니다.

#Review #Autoregressive Generation #Pixel-Space #Parallel Rollout Approximation #Continuous-Token #Diffusion Head #Intermediate States #Train-Inference Mismatch

2026년 6월 28일

[논문리뷰] Object-Centric Residual RL for Zero-Shot Sim-to-Real VLA Enhancement

본 논문은 imitation learning 기반의 VLA가 실제 로봇의 정밀한 물리적 상호작용에서 발생하는 오차 누적으로 인해 빈번히 실패하는 문제를 해결하고자 한다.

#Review #Vision-Language-Action Models #Reinforcement Learning #Sim-to-Real Transfer #Robot Manipulation #Object-Centric #Residual RL

2026년 6월 28일

[논문리뷰] NormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning

본 연구는 Flow-matching 모델의 RL post-training 시 발생하는 reward over-optimization과 그에 따른 지각적 품질 저하 문제를 해결합니다.

#Review #Reinforcement Learning #Flow-Matching #Norm Inflation #Reward-Preserving #Perceptual Quality #Regularization

2026년 6월 28일

[논문리뷰] MultiHashFormer: Hash-based Generative Language Models

본 연구는 고정된 어휘 사전 크기로 인해 발생하는 vocabulary bottleneck 문제를 해결하고, 파라미터 효율적인 causal language modeling을 가능하게 하는 것을 목표로 합니다.

#Review #Generative Language Models #Token Hashing #Vocabulary Bottleneck #Multi-ID Signature #Causal Language Modeling

2026년 6월 28일

[논문리뷰] Learning to Fold: prizewinning solution at LeHome Challenge 2026 (1st place online, 2nd offline)

본 연구는 고정된 공간 내에서 가구를 가장 효율적으로 배치하고 조립 순서를 최적화해야 하는 NP-hard 범주의 복합적 문제를 해결하고자 합니다. 기존의 단순 배치 알고리즘은 가구 간의 기하학적 간섭(Interference)과 조립 단계의 Latency를 적절히 처리하지 못하는 한계가 있었습니다.

#Review #Furniture Assembly #Optimization #Heuristic Search #LeHome Challenge #Computational Geometry

2026년 6월 28일

[논문리뷰] Ko-WideSearch: A Korean Breadth-Search Benchmark for Exhaustive Set Enumeration by Web Agents

본 논문은 기존의 웹 에이전트 벤치마크가 Depth(단일 정보 탐색) 위주로 편중되어 있으며, 다수의 속성을 포함한 구조적 집합을 완성하는 Breadth 능력에 대한 평가가 부족하다는 점을 지적합니다 .

#Review #Web Agents #Breadth-Search #Korean Benchmark #Set Enumeration #Tool Use #Evaluation Pipeline #Difficulty Tiers

2026년 6월 28일

[논문리뷰] GBC: Gradient-Based Connections for Optimizing Multi-Agent Systems

본 논문은 Multi-Agent System(MAS)의 성능 향상을 저해하는 근본적인 문제로 Fine-grained credit assignment의 부재를 지적합니다.

#Review #Multi-Agent Systems #Gradient-Based Connections #Prompt Optimization #Credit Assignment #Attribution #Computational Graph #AgentChord

2026년 6월 28일

[논문리뷰] Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs

본 논문은 LLM의 잠재 추론(latent reasoning)이 실제로는 기능적 요건을 충족하지 못할 수 있다는 점을 지적하며, 이를 검증하기 위한 공리적 평가 프레임워크를 제안합니다 .

#Review #LLM #Latent Thought Representation #Axiomatic Framework #Causality #Minimality #Separability #Stability #Functional Reasoning

2026년 6월 28일

[논문리뷰] Cluster, Route, Escalate: Cascaded Framework for Cost-Aware LLM Serving

본 논문은 프로덕션 환경에서 LLM 배포 시 발생하는 정확도와 비용(Latency) 간의 트레이드오프 문제를 해결하기 위한 Cascaded Framework를 제안합니다.

#Review #LLM Serving #Model Routing #Cost-Aware Inference #Quality Estimation #Cascaded Framework #Pareto Analysis #TPOT

2026년 6월 28일

[논문리뷰] Boundary-Aware Context Grounding for A Low-Channel EEG Agent

본 논문은 일반적인 LLM이 특정 EEG 장치, 기록 프로토콜, 소프트웨어 버전 또는 결과 스키마에 대한 지식이 부족하여 발생하는 '범주 오류(category error)' 문제를 해결하고자 한다.

#Review #low-channel EEG #large language models #hardware-aware AI #boundary awareness #reproducibility #scientific software

2026년 6월 28일

[vllm] vLLM ROCM 최적화: GLM-4 MoE를 위한 Fused Shared Expert(FSE) 도입

GLM-4 MoE 모델의 공유 전문가(Shared Expert)를 FusedMoE 커널로 통합하여 추론 성능을 최대 22% 향상시켰습니다.

#vLLM #ROCm #MoE #Performance #Optimization

2026년 6월 28일

[uv] uv 의존성 해결 성능 최적화: PubGrub 반복 작업 재사용으로 8% 이상 속도 향상

uv resolver가 PubGrub 반복 과정에서 발생하는 중복 작업을 제거하여 의존성 해결 속도를 최대 8.1% 향상시킨 최적화 기법 분석.

#uv #dependency resolution #PubGrub #optimization #Rust #performance #caching

2026년 6월 27일

[vllm] vLLM ROCm 환경에서 FlyDSL을 활용한 MXFP8 MoE 성능 최적화

ROCm gfx950 환경에서 FlyDSL 기반 MXFP8 MoE 커널을 통합하여 추론 성능을 최대 20% 향상하고 백엔드 선택 로직을 개선했습니다.

#vLLM #ROCm #MoE #MXFP8 #Performance #FlyDSL

2026년 6월 27일

[sglang] SGLang LTX-2.3 Diffusion 모델 최적화: Residual-Gate 연산 CUDA Fast Path 도입

SGLang LTX-2.3 모델의 핵심 연산인 residual-gate update를 CUDA 커널로 최적화하여 성능을 크게 향상시켰습니다.

#SGLang #CUDA #Optimization #Diffusion Models #Deep Learning #Performance

2026년 6월 27일

[vllm] vLLM의 GLM5.2 성능 최적화: Triton 커널 융합을 통한 E2E Throughput 향상

Triton 커널 융합으로 Q RoPE, FP8 양자화, 스케일 폴딩을 통합하여 추론 성능을 최대 3.3% 개선했습니다.

#vLLM #Triton #LLM #Optimization #FP8

2026년 6월 27일

[sglang] SGLang, CUDA 그래프 재실행 시 호스트-디바이스 동기화 제거로 성능 향상

SGLang에서 CUDA 그래프 재실행 시 불필요한 호스트-디바이스 동기화를 제거하여 GPU 활용률을 높이고 응답 속도를 개선했습니다.

#SGLang #CUDA #최적화 #성능 #LLM

2026년 6월 27일

[vllm] vLLM, DeepSeek V4 모델 성능 최적화: AITER MXFP4 BF16 백엔드 개선

vLLM에서 DeepSeek V4 모델의 성능을 향상시키기 위한 AITER MXFP4 BF16 백엔드 최적화 분석

#vLLM #DeepSeekV4 #LLM #Performance #Optimization #ROCm #AITER #MXFP4

2026년 6월 26일

[vllm] vLLM ROCm 환경에서 Shared-Expert Fusion을 통한 MoE 추론 성능 최적화

MiniMax-M3 모델의 공유 전문가(Shared-expert)를 라우팅된 그룹 GEMM에 통합하여 추론 지연 시간을 최대 30% 개선했습니다.

#vLLM #ROCm #MoE #Performance #Optimization

2026년 6월 26일