[sglang] FlashInfer TRTLLM-Gen MoE 커널 최적화: NemotronH 모델 지원 및 성능 향상FlashInfer TRTLLM-Gen MoE 커널에 NemotronH 모델 지원을 추가하고 성능을 최적화한 PR 분석.#FlashInfer#TRTLLM#MoE#NemotronH#FP4#FP8#Kernel Optimization#Deep Learning#Performance2026년 4월 29일댓글 수 로딩 중
[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.#LLM#KV Cache#Quantization#Optimization#SGLang#FP4#NVFP42026년 4월 29일댓글 수 로딩 중
[논문리뷰] GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction본 연구는 GUI Agent를 모바일 기기와 같은 자원 제약 환경에 효과적으로 배포하기 위해, 기존 대규모 VLM이 가진 과도한 연산 비용과 메모리 요구사항 문제를 해결하고자 한다. 대부분의 최신 VLM은 2.5B 이상의 파라미터를 사용하여 온디바이스 환경에서 활용하기 어렵다는 한계가 있다.#Review#GUI Agent#Vision-Language Model#Visual Grounding#Data Refinement#Model Compression#Encoder-Decoder Architecture2026년 4월 28일댓글 수 로딩 중
[논문리뷰] AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark본 논문은 현재 GUI 에이전트 평가 방식이 단순한 시각적 요소 매칭에 치중되어 있어, 실제 디지털 환경에서의 복잡한 상태 변화와 GUI 동역학을 이해하는 능력을 측정하지 못한다는 문제를 해결하고자 한다.#Review#GUI Agents#Multi-Modal Benchmarking#Functional Understanding#Interaction Outcome Prediction#Vision-Language Models#Hierarchical Decomposition2026년 4월 28일댓글 수 로딩 중
[cpython] Python subprocess.communicate() 타임아웃 성능 개선: 느린 자식 프로세스 응답 방식 변경subprocess.communicate()의 타임아웃 테스트에서 발생하는 긴 지연 시간을 해결하여 테스트 속도를 크게 향상시킵니다.#python#subprocess#performance#testing#optimization2026년 4월 26일댓글 수 로딩 중
[cpython] Python dataclasses 모듈의 성능 최적화: inspect 모듈의 Lazy Import 도입dataclasses 모듈의 무거운 inspect 의존성을 Lazy Import로 전환하여 모듈 로드 시간을 약 20-30% 개선했습니다.#Python#CPython#Performance#Optimization#dataclasses2026년 4월 26일댓글 수 로딩 중
[cpython] Python `subprocess` 테스트 최적화: `communicate()` 타임아웃 테스트 속도 향상`subprocess.communicate()` 타임아웃 테스트의 런타임을 30초에서 1초 미만으로 단축하는 최적화 분석.#Python#subprocess#testing#optimization#performance#socket2026년 4월 26일댓글 수 로딩 중
[cpython] CPython 테스트 최적화: 30초의 대기를 1초 미만으로 단축하는 소켓 핸드셰이크 기법subprocess 테스트의 불필요한 sleep을 제거하고 루프백 소켓 기반의 동기화 메커니즘을 도입하여 테스트 실행 시간을 획기적으로 단축한 사례를 분석합니다.#Python#CPython#Subprocess#Testing#Optimization#Socket2026년 4월 26일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.#SGLang#PyTorch#CUDA#Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[sglang] AMD ROCm 환경에서의 성능 최적화: Triton을 활용한 Fused QK GemmaRMSNorm 구현ROCm 플랫폼에서 4개의 개별 커널을 하나의 Triton 커널로 통합하여 QK 정규화 성능을 개선한 사례를 분석합니다.#SGLang#Triton#ROCm#Performance Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[sglang] SGLang MoE 라우팅 최적화: AMD GPU에서 aiter.biased_grouped_topk 활용AMD GPU에서 MoE 라우팅의 sigmoid 스코어링을 위한 커널 최적화로 처리량 2.4% 향상.#SGLang#MoE#AMD GPU#최적화#성능#AIter#GPU Kernel2026년 4월 25일댓글 수 로딩 중
[sglang] AMD GPU에서 FP8 KV 캐시 쓰기 최적화: Triton 커널 융합으로 성능 향상AMD GPU의 FP8 KV 캐시 쓰기 성능을 개선하기 위해 Triton 커널을 융합하여 오버헤드를 줄였습니다.#AMD GPU#FP8#Triton Kernel#KV Cache#Optimization#SGLang2026년 4월 25일댓글 수 로딩 중
[flashinfer] FlashInfer 오토튜너 최적화: 하이브리드 토큰 버킷 도입기존 2의 거듭제곱 방식의 토큰 버킷을 하이브리드 방식으로 개선하여 MoE 및 GEMM 커널의 튜닝 정확도와 성능을 향상시켰습니다.#FlashInfer#LLM#Autotuning#Optimization#MoE2026년 4월 24일댓글 수 로딩 중
[flashinfer] FlashInfer, CuTe DSL 기반 FMHA 커널 통합으로 사전 생성(Prefill) 성능 극대화FlashInfer가 CuTe DSL FMHA 커널을 통합하여 사전 생성(Prefill) 성능을 최적화했습니다.#FlashInfer#CuTe DSL#FMHA#Prefill#최적화#성능 개선#딥러닝#LLM2026년 4월 24일댓글 수 로딩 중
[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기vLLM에 유연한 JIT 양자화 커널 라이브러리인 Humming을 통합하여 다양한 양자화 타입 지원 및 추론 성능을 최적화하는 방법을 소개합니다.#vLLM#Quantization#Humming#LLM#Inference#Optimization2026년 4월 24일댓글 수 로딩 중
[onnxruntime] ONNX Runtime 스레드 풀의 지능형 대기: Exponential Backoff 도입으로 성능 및 전력 효율성 향상ONNX Runtime 스레드 풀의 스핀 루프에 Exponential Backoff를 도입하여 성능과 전력 효율성을 개선하는 방법을 분석합니다.#ONNX Runtime#성능 최적화#스레드 풀#Exponential Backoff#병렬 처리2026년 4월 24일댓글 수 로딩 중
[flashinfer] FlashInfer의 고성능 분산 연산: All-Gather Matmul 최적화 분석FlashInfer에 추가된 All-gather Matmul 연산은 Push-Wait 알고리즘을 통해 분산 환경에서 GEMM 성능을 극대화합니다.#FlashInfer#Distributed Computing#CUDA#GEMM#Performance Optimization2026년 4월 24일댓글 수 로딩 중
[논문리뷰] WorldMark: A Unified Benchmark Suite for Interactive Video World Models저자들은 Interactive I2V 모델들을 위한 최초의 표준화된 벤치마크인 WorldMark를 제안합니다. 이 프레임워크의 핵심은 모델별 제어 방식을 WASD 표준 액션으로 변환하는 Unified Action-mapping Adapter를 통해 6개 주요 모델을 동일 조건에서 비교하는 것입니다.#Review#Interactive World Models#Image-to-Video#Benchmark#Unified Control Interface#World Consistency#Cross-Model Evaluation2026년 4월 23일댓글 수 로딩 중
[논문리뷰] WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning본 연구는 기존 LLM 기반 웹사이트 생성 방식이 겪고 있는 확장성 및 품질 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Website Generation#GRPO#Multimodal Reward#React2026년 4월 23일댓글 수 로딩 중
[논문리뷰] VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation본 논문은 자율형 GUI 에이전트가 직면한 early stopping과 repetitive loops라는 두 가지 근본적인 문제를 해결하기 위해 VLAA-GUI를 제안합니다. 기존 에이전트들은 작업 완료 여부를 불명확하게 판단하여 미완성 상태에서 성공을 선언하거나, 동일한 실패 행동을 반복적으로 수행하는 한계를 보입니다.#Review#GUI Automation#Agentic Framework#Completeness Verifier#Loop Breaker#Search Agent#Multimodal LLM2026년 4월 23일댓글 수 로딩 중