최신 포스트

[논문리뷰] Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents

본 논문은 Compact Language Models 기반의 에이전트가 복잡한 MCP 도구 사용 환경에서 겪는 구조적 취약성과 낮은 실행 성공률 문제를 해결하고자 합니다.

#Review #Tool-use #Compact Language Models #Inference-time Evolution #Executable Workflow #MCP-Bench #LLM Agents #Evolutionary Search

2026년 6월 11일

[논문리뷰] EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

본 연구는 기존의 정적인 벤치마크 환경이 급변하는 실시간 정보 환경을 제대로 반영하지 못하는 한계를 극복하고자 수행되었습니다. 대다수의 기존 모델들은 학습 데이터에 포함된 과거 정보에 의존하거나, 고정된 문서 데이터셋 내에서만 평가되어 실시간으로 업데이트되는 사실 관계를 추적하는 데 어려움을 겪습니다.

#Review #Search Agents #Evolving Knowledge #Benchmarking #Information Retrieval #LLM #Dynamic Environments

2026년 6월 11일

[논문리뷰] A Stationary (and Therefore Compatible) Representation is All You Need

본 논문은 급변하는 모델 생태계에서 개별 모델의 Representation이 변화함에 따라 발생하는 Compatibility 단절 문제를 해결하고자 합니다.

#Review #Stationary Representation #Model Compatibility #Representation Learning #Knowledge Distillation #Feature Alignment

2026년 6월 11일

[onnxruntime] WebGPU 성능 최적화: Graph Capture 재사용을 위한 Session-level Buffer Pool 도입

ONNX Runtime WebGPU EP에서 그래프 캡처 시 발생하는 버퍼 재할당 오버헤드를 줄이기 위한 세션 레벨 버퍼 풀링 기법 분석

#WebGPU #ONNXRuntime #Performance #GraphCapture #GenAI

2026년 6월 10일

[sglang] SGLang에서 DP Attention, TBO, Shared Experts Fusion 동시 최적화 구현

DP Attention, TBO, Shared Experts Fusion을 통합하여 DeepSeek 모델의 추론 성능을 약 2.5% 향상시킨 기술적 해결 과정.

#SGLang #DeepSeek #LLM #Optimization #DistributedInference

2026년 6월 10일

[flashinfer] FlashInfer Unified MoE API: NVFP4 백엔드 통합 및 자동 튜닝 최적화

CuteDSL과 TRTLLM FP4 백엔드를 통합하고, 런타임 자동 튜닝을 통해 최적의 성능을 선택하는 Unified MoE API 설계 및 구현.

#FlashInfer #MoE #NVFP4 #Autotuning #LLM

2026년 6월 10일

[vllm] vLLM, DFlash 도입으로 추론 속도 1.2배 향상: MRV2와 CUDAGraph의 시너지

vLLM이 DFlash를 도입하여 MRV2 및 CUDAGraph와 결합, 추론 속도를 1.2배 향상시킨 기술적 분석입니다.

#vLLM #DFlash #Speculative Decoding #Performance Optimization #CUDAGraph #LLM Inference

2026년 6월 10일

[loki] Grafana Loki의 Shuffle Sharding 알고리즘 최적화: 성능 향상의 비결

Grafana Loki의 Shuffle Sharding 알고리즘이 어떻게 최적화되어 성능을 크게 향상시켰는지 분석합니다.

#Grafana Loki #Shuffle Sharding #성능 최적화 #Go #알고리즘

2026년 6월 9일

[sglang] SGLang LTX-2 VAE 디코딩 성능 최적화: channels_last_3d 도입으로 4.5배 속도 향상

LTX-2 VAE 디코딩 과정에서 channels_last_3d 메모리 레이아웃을 적용하여 Conv3d 연산 속도를 4.5배 높이고 메모리 사용량을 13.5% 절감했습니다.

#SGLang #DeepLearning #Optimization #VAE #CUDA

2026년 6월 9일

[transformers] Hugging Face Transformers: 멀티프로세싱 풀 재사용을 통한 모듈식 변환 성능 최적화

멀티프로세싱 풀을 매번 생성하지 않고 재사용함으로써 모듈식 변환 속도를 약 50% 향상시킨 사례를 분석합니다.

#Python #Performance #Multiprocessing #HuggingFace #Optimization

2026년 6월 9일

[transformers] [Hugging Face] n-to-1 커널 퓨전과 파라미터 변환: KernelConfig API의 진화

Transformers 모델의 성능 극대화를 위한 모듈 퓨전 및 가중치 레이아웃 변환 자동화 기법 분석

#HuggingFace #Transformers #KernelFusion #PyTorch #Optimization

2026년 6월 9일

[논문리뷰] WorldOlympiad: Can Your World Model Survive a Triathlon?

본 연구는 기존 세계 모델 평가 방식이 파편화되어 있고 실제 물리적 환경에서의 복합적인 능력을 충분히 측정하지 못한다는 문제의식에서 출발합니다. 현재 대부분의 연구는 특정 태스크에만 최적화되어 있어, 변화하는 환경에서의 일반화(Generalization) 성능이나 복잡한 인과 관계 이해도를 확인하기 어렵습니다.

#Review #World Models #Benchmarking #Embodied AI #Generalization #Multimodal Evaluation #Simulator

2026년 6월 9일

[논문리뷰] Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

본 연구는 기존 에이전트 벤치마크가 지나치게 단순하거나, 실제 전문 업무의 복잡성을 충분히 반영하지 못한다는 한계를 해결하고자 합니다. 기존의 단기적인 작업 위주 평가는 실세계 환경에서 요구되는 고도의 Planning 능력과 Error Correction 능력을 측정하는 데 한계가 있습니다.

#Review #Computer-use Agents #Long-Horizon Evaluation #Real-World Workflows #Agentic Tasks #Benchmark Platform #Professional Fields

2026년 6월 9일

[논문리뷰] When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

본 연구는 Multi-turn Reasoning 환경에서 모델의 CoT가 실제 최종 답변의 정확도를 보장하지 않으며, 오히려 논리적 모순을 유발할 수 있다는 점을 문제로 제기합니다.

#Review #Multi-turn Reasoning #Chain of Thought #Failure Modes #Faithfulness #LLM Evaluation

2026년 6월 9일

[논문리뷰] UniPET: a universal network for high-quality PET image denoising across varied dose reduction factors

본 연구는 고정된 노이즈 수준에 맞춰진 기존 PET 노이즈 제거 모델들이 다양한 임상적 상황에서의 변동성에 효과적으로 대응하지 못한다는 문제점을 해결하고자 합니다.

#Review #PET Image Denoising #Universal Network #Dose Reduction #Deep Learning #Medical Imaging

2026년 6월 9일

[논문리뷰] U-TTT: Towards Generalizable PET Image Denoising via Test-Time Training

본 논문은 기존의 Supervised Learning 기반 PET Denoising 모델들이 훈련 데이터와 테스트 데이터 간의 Domain Shift가 발생할 경우 성능이 급격히 저하되는 문제를 해결하고자 합니다.

#Review #PET Image Denoising #Test-Time Training #Generalization #Deep Learning #Unsupervised Learning #Medical Imaging

2026년 6월 9일

[논문리뷰] The Role of Feedback Alignment in Self-Distillation

본 연구는 신경망 훈련 시 대규모 연산 자원이 필요한 Backpropagation의 의존성을 줄이고, Self-Distillation 과정에서의 효율성을 극대화하기 위해 수행되었다.

#Review #Self-Distillation #Feedback Alignment #Backpropagation #Knowledge Distillation #Deep Learning

2026년 6월 9일

[논문리뷰] Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

본 논문은 표준적인 RL 정책(Policy)이 학습 이후 고정된 분포에서 액션을 샘플링하여 복잡한 제약 조건이나 급변하는 환경에서 최적 성능을 달성하지 못하는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Flow Policies #Test-Time Guidance #Gradient-based Optimization #Trajectory Optimization #Policy Search

2026년 6월 9일

[논문리뷰] Struct-Searcher: Agentic Structural Thinking Advances Multimodal Deep Information Seeking

본 논문은 현대의 멀티모달 딥 리서치 시스템이 정보 수집 과정에서 발생하는 Cross-modal conflict를 적절히 해결하지 못하는 '지식적 경직성(epistemic rigidity)' 문제를 해결하고자 합니다.

#Review #Multimodal #Deep Research Agents #Belief Revision Theory #Structural Thinking #Multimodal Structural Graph (MSG)#Conflict-aware

2026년 6월 9일

[논문리뷰] Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution

본 연구는 고성능 LLM Agents를 구축하는 과정에서 직면하는 데이터 희소성과 정밀한 추론 전략의 부재를 해결하는 데 초점을 둡니다.

#Review #LLM Agents #Dual-Role Evolution #Self-Play #Knowledge Bootstrapping #Task Planning #Iterative Refinement

2026년 6월 9일