[Open WebUI] 매 인증 요청마다 실행되는 last_active 업데이트를 단일 UPDATE 쿼리로 최적화SELECT + refresh + Pydantic 직렬화를 수행하던 last_active 업데이트를 단일 UPDATE 문으로 교체하여 매 요청의 DB 부하를 줄인 최적화 분석.#Open WebUI#Python#Performance#SQLAlchemy#Database2026년 3월 30일댓글 수 로딩 중
[sglang] Dumper 디버그 유틸리티 리팩토링: 설정 구조 개선과 Non-intrusive 모드 도입SGLang의 dumper.py를 upstream main에서 동기화하며 설정 클래스 구조 개선, CLI key=value 파싱 지원, non-intrusive 모드 등을 추가한 대규모 리팩토링 분석.#SGLang#Debug#Refactoring#Python#LLM Inference2026년 3월 30일댓글 수 로딩 중
[SGLang] Mamba 캐시 누수 수정: adder 실패 시 pool index 회수요청 추가 실패 시 할당된 mamba_pool_idx를 해제하지 않아 발생하는 메모리 누수를 수정한다#SGLang#Mamba#Bug Fix#Memory Leak2026년 3월 30일댓글 수 로딩 중
[sglang] 미사용 BatchMultimodalOutput/DecodeReq 제거로 코드베이스 정리SGLang에서 사용되지 않는 BatchMultimodalOutput과 BatchMultimodalDecodeReq 데이터클래스를 제거하여 81줄의 dead code를 정리한 클린업 분석.#SGLang#Cleanup#Dead Code#Python#LLM Inference2026년 3월 29일댓글 수 로딩 중
[논문리뷰] Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent SkillsLarge Language Model (LLM) 기반의 Agent는 복잡한 태스크를 해결하기 위해 Domain-specific Skill에 대한 의존도가 높아지고 있습니다.#Review#LLM Agents#Skill Evolution#Trajectory Analysis#Inductive Reasoning#Transferable Skills#Conflict-Free Consolidation2026년 3월 29일댓글 수 로딩 중
[논문리뷰] Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language ModelsAI 패러다임이 Text-based LLMs에서 Speech Language Models (SLMs)로 전환됨에 따라, 실시간의 자연스러운 Human-Computer Interaction을 지원하는 Full-duplex system 에 대한 수요가 증가하고 있습니다.#Review#Full-duplex Speech#Data Pre-processing#Speaker Diarization#Overlap Separation#ASR Ensemble#Speech Language Models2026년 3월 29일댓글 수 로딩 중
[논문리뷰] ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling최근 Text-to-Video Model들은 단일 쇼트(single-shot) 비디오 생성에서 높은 성능을 보이지만, 영화나 TV와 같은 긴 서사적 스토리텔링(Long-form Narrative Storytelling)을 위해서는 Multi-shot Video Generation 이 필수적입니다.#Review#Multi-Shot Video Generation#Interactive Storytelling#Causal Architecture#Distribution Matching Distillation#Self Forcing#Dual-Cache Memory#RoPE Discontinuity Indicator2026년 3월 29일댓글 수 로딩 중
[논문리뷰] RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task EvaluationVision-Language Models (VLMs)는 다양한 도메인에서 인상적인 코드 생성 능력을 보여주었지만, 복잡한 멀티패널 시각화를 실제 데이터로부터 재현하는 능력 은 아직 충분히 평가되지 않았다.#Review2026년 3월 29일댓글 수 로딩 중
[논문리뷰] PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference최근 autoregressive video diffusion models 는 상당한 발전을 이루었지만, 장시간 비디오 생성 시 발생하는 몇 가지 주요 제약 사항들에 직면해 있다.#Review#Autoregressive Video Generation#KV Cache Management#Long Context Inference#Video Diffusion Models#Temporal Consistency#Spatiotemporal Compression#RoPE Adjustment#Dynamic Context Selection2026년 3월 29일댓글 수 로딩 중
[논문리뷰] Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World ModelsVideo World Models는 물리적인 세계를 시뮬레이션하는 데 막대한 잠재력을 보여주지만, 기존 Memory Mechanism들은 환경을 주로 Static Canvas로 간주하는 한계를 가지고 있다.#Review#Video World Models#Hybrid Memory#Dynamic Retrieval Attention#HM-World Dataset#Spatiotemporal Consistency2026년 3월 29일댓글 수 로딩 중
[논문리뷰] Natural-Language Agent HarnessesAgent의 성능은 점점 더 harness engineering에 의존하고 있지만, 기존의 harness 디자인은 컨트롤러 코드와 런타임 특정(runtime-specific) 관습에 파묻혀 있어, 이를 과학적 대상으로 전이(transfer), 비교(compare), 연구(study)하기 어렵다는 문제가 있습니다.#Review2026년 3월 29일댓글 수 로딩 중
[논문리뷰] LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail DatasetSelf-driving 시스템에서 Long-tail Scenarios 에 대한 Generalization 은 여전히 근본적인 도전 과제입니다.#Review2026년 3월 29일댓글 수 로딩 중
[논문리뷰] Diffutron: A Masked Diffusion Language Model for Turkish LanguageAutoregressive (AR) Transformers는 현재 Large Language Models (LLMs) 분야에서 지배적이지만, 텍스트를 토큰별로 순차적으로 생성하는 본질적인 특성으로 인해 Generation Speed와 고려할 수 있는 Context에 한계가 있다.#Review#Masked Diffusion Language Models#Turkish NLP#Non-Autoregressive Generation#LoRA#Instruction Tuning#Morphologically Rich Languages#Parameter Efficiency2026년 3월 29일댓글 수 로딩 중
[SGLang] CUDA IPC Pool Handle 캐싱으로 멀티모달 전송 최적화멀티모달 데이터 전송 시 CUDA IPC 핸들을 풀 수준에서 캐싱하여 반복적인 cudaIpcOpenMemHandle 호출을 제거한다#SGLang#CUDA IPC#Multimodal#Performance2026년 3월 29일댓글 수 로딩 중
[sglang] GB300 Nightly 벤치마크 테스트 스위트 추가SGLang CI에 NVIDIA GB300(Blackwell) 전용 nightly 벤치마크 테스트를 추가하고, NeMo Skills 기반 VLM 평가 인프라를 구축한 분석.#SGLang#CI#Benchmark#GB300#Blackwell#NeMo Skills#VLM2026년 3월 29일댓글 수 로딩 중
[CPython] sqlite3 콜백 컨텍스트의 메모리 관리 버그 수정sqlite3 모듈의 내부 callback context 메모리 관리 결함을 수정하여 MemoryError 대신 SystemError가 발생하던 문제와 SQLITE_BUSY 시 crash를 해결한 분석.#CPython#sqlite3#Memory Management#Bug Fix#C2026년 3월 29일댓글 수 로딩 중
[SGLang] GDN의 kkt + solve_tril을 하나의 Triton 커널로 퓨전Gated Delta Network의 K@K^T 계산과 삼각 행렬 풀이를 단일 Triton 커널로 합쳐 HBM 왕복을 제거한다#SGLang#Triton#Kernel Fusion#Linear Attention2026년 3월 29일댓글 수 로딩 중
[sglang] SGLang Whisper 모델의 CUDA Graph 도입 및 성능 최적화 분석Whisper 모델에 CUDA Graph를 도입하여 처리량을 36% 향상시킨 SGLang의 최적화 기법과 구현 상세를 분석합니다.#SGLang#Whisper#CUDA Graph#Performance Optimization#LLM2026년 3월 28일댓글 수 로딩 중
[triton] AMD TDM의 Partition-Aware 분할 및 다중 Intrinsic 지원PartitionedSharedEncoding에서 TDM warp 배분을 파티션 경계에 맞추고, 다중 TDM 명령어 생성 및 wait count 계산을 올바르게 처리하도록 개선한 사례를 분석합니다.#Triton#AMD#GPU#TDM#WarpDistribution2026년 3월 28일댓글 수 로딩 중
[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.#Axolotl#GRPO#LLM Training#Performance#Flash Attention#PyTorch#Reinforcement Learning2026년 3월 28일댓글 수 로딩 중