[논문리뷰] Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey본 설문조사는 대규모 언어 모델(LLM)의 급증에 따라 발생하는 추론 시간의 효율성 및 최적 모델 선택의 필요성을 해결하고자 합니다.#Review#LLM Inference#Model Routing#Model Cascading#Efficiency Optimization#Dynamic Model Selection#Multi-LLM Systems#Cost-Performance Trade-off#Adaptive AI Systems2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Dynamic Chunking Diffusion Transformer본 논문은 Diffusion Transformer (DiT)에서 고정된 패치화를 학습된 동적 청킹(dynamic chunking) 메커니즘 으로 대체하여 이미지 생성 품질을 유지하면서 연산 효율성을 극대화 하는 것을 목표로 합니다.#Review#Diffusion Transformer#Dynamic Chunking#Adaptive Patching#Image Generation#Computational Efficiency#Token Reduction#Spatial Segmentation#Load Balancing2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Demystifying Action Space Design for Robotic Manipulation Policies로봇 조작 정책 학습에서 액션 공간 설계가 주로 경험적 휴리스틱에 의해 이루어져 최적화 및 안정성에 대한 체계적인 이해가 부족한 문제를 해결하는 것입니다. 이 연구는 시간적(절대값 vs. 델타) 및 공간적(조인트-공간 vs.#Review#Robotic Manipulation#Action Space Design#Imitation Learning#Delta Actions#Joint Space Control#Task Space Control#Generalization#Control Stability2026년 3월 8일댓글 수 로딩 중
[논문리뷰] DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation기존 발표 자료 생성 에이전트의 한계(미리 정의된 워크플로, 콘텐츠에 구애받지 않는 템플릿, 내부 신호에만 의존하는 자기 성찰)를 극복하고자 합니다.#Review#Agentic Systems#Presentation Generation#Large Language Models (LLMs)#Multimodal LLMs (MLLMs)#Environment-Grounded Reflection#Self-Correction#Dual-Agent Framework#Supervised Fine-tuning2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations본 논문은 멀티 벡터 시각적 문서 검색(VDR) 시스템에서 발생하는 심각한 저장 효율성 병목 현상 을 해결하고 동시에 검색 성능을 향상시키는 것을 목표로 합니다. 기존 멀티 벡터 모델의 패치 기반 임베딩 방식이 초래하는 막대한 저장 비용과 문서 레이아웃 구조에 대한 명시적인 접지 부족 문제를 극복하고자 합니다.#Review#Multi-Vector Retrieval#Visual Document Understanding#Document Parsing#Layout-Informed Embeddings#Information Bottleneck#Storage Efficiency#Late Interaction2026년 3월 8일댓글 수 로딩 중
[논문리뷰] BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning대규모 언어 모델(LLM)의 강화 학습(RL)에서 PPO의 표준 클리핑 메커니즘 이 저확률 액션의 상향 업데이트 마진을 엄격하게 제한하여 고-이점 꼬리 전략을 억제하고 급격한 엔트로피 붕괴를 유발하는 문제를 해결하는 것이 목표입니다.#Review#LLM Reinforcement Learning#Trust Region#Policy Optimization#Ratio Clipping#f-divergence#Entropy Regularization#Exploration#BandPO2026년 3월 8일댓글 수 로딩 중
[Open WebUI] 채팅 메시지 마이그레이션을 스트리밍+배치 처리로 전환하여 메모리 폭발 방지fetchall()로 전체 데이터를 메모리에 로드하고 건별 INSERT하던 마이그레이션을 yield_per 스트리밍과 5000건 단위 배치 INSERT로 전환한 분석.#Open WebUI#Python#Performance#SQLAlchemy#Migration2026년 3월 8일댓글 수 로딩 중
[vllm] NGram GPU 구현 - 비동기 스케줄러 호환 GPU 기반 N-gram DraftingN-gram speculative decoding을 GPU에서 실행하여 CPU-GPU 동기화 오버헤드를 제거하고 비동기 스케줄링과 호환#vllm#Performance2026년 3월 7일댓글 수 로딩 중
[Axolotl] 가중치 동기 로딩으로 OOM 방지MoE 모델 로딩 시 비동기 텐서 전송을 비활성화하여 GPU OOM을 방지하는 수정#Axolotl#MoE#OOM#Memory Optimization#Quantization2026년 3월 7일댓글 수 로딩 중
[triton] AMD FpSan dot 에뮬레이션의 MFMA/WMMA encoding 호환성 수정FP Sanitizer의 dot 에뮬레이션에서 MFMA/WMMA 인코딩 대신 최적화된 blocked layout을 사용하고 cross-warp barrier를 추가하여 정확성을 보장한 PR을 분석합니다.#Triton#AMD#FpSan#Bug Fix#MFMA2026년 3월 6일댓글 수 로딩 중
[Open WebUI] Artifacts 컴포넌트 메모리 누수 수정Svelte store 구독 해제 누락으로 인한 메모리 누수 해결#Open WebUI#Svelte#Memory Leak#Performance2026년 3월 6일댓글 수 로딩 중
[axolotl] ScatterMoE 커널 라우팅 통합: Softmax/Sigmoid 기반 라우팅과 Autotune Telemetry 추가MoE 모델의 다양한 라우팅 전략(Softmax TopK, Sigmoid TopK)을 통합 함수로 정리하고, Triton autotune 결과를 자동 수집하는 telemetry callback을 추가한 사례를 분석합니다.#Axolotl#MoE#ScatterMoE#Triton#Routing#Telemetry2026년 3월 6일댓글 수 로딩 중
[axolotl] 코드 품질 개선: CONTRIBUTING.md 플레이스홀더 수정, bare except 제거, convert.py 테스트 추가axolotl의 CONTRIBUTING.md 플레이스홀더 문제를 수정하고, bare except를 구체적 예외로 변경하며, convert.py에 대한 단위 테스트를 추가한 사례를 분석합니다.#Axolotl#Code Quality#Testing#Best Practices2026년 3월 6일댓글 수 로딩 중
[Open WebUI] N+1 쿼리 제거: Function Valves 일괄 조회 최적화모델별 액션마다 개별 DB 쿼리를 던지던 N+1 패턴을 WHERE IN 일괄 조회로 개선한 분석.#Open WebUI#Python#Database#N+1 Query#SQLAlchemy#Performance2026년 3월 6일댓글 수 로딩 중
[Open WebUI] 재귀적 메시지 리스트 생성을 반복문으로 전환하여 O(d²) → O(d) 개선spread 기반 재귀 구현을 push+reverse 반복문으로 변환하여 대화 깊이에 따른 O(d²) 배열 복사를 제거한 분석.#Open WebUI#TypeScript#Performance#Algorithm#Frontend#Svelte2026년 3월 6일댓글 수 로딩 중
[Open WebUI] APIKeyRestrictionMiddleware를 순수 ASGI로 전환하여 스트리밍 오버헤드 제거BaseHTTPMiddleware를 상속하던 API 키 제한 미들웨어를 순수 ASGI 미들웨어로 변환하여, 스트리밍 응답의 모든 청크가 미들웨어 Python 호출 스택을 통과하던 오버헤드를 제거한 PR을 분석합니다.#Open WebUI#ASGI#Performance#Python#Middleware#Starlette2026년 3월 6일댓글 수 로딩 중
[Open WebUI] TTS 문장 파싱을 showCallOverlay 가드로 감싸 불필요한 O(n^2) 연산 제거음성 통화 오버레이가 비활성일 때 매 토큰마다 실행되던 정규식 파싱을 완전히 건너뛰도록 가드를 추가한 최적화 분석.#Open WebUI#Svelte#JavaScript#Performance#TTS#Regex2026년 3월 6일댓글 수 로딩 중
[Open WebUI] 스트리밍 중 동일 콘텐츠의 중복 마크다운 파싱을 캐시로 방지매 애니메이션 프레임마다 실행되던 Markdown 파서에 단순 캐시를 추가하여, 새 토큰이 없을 때 불필요한 파싱을 건너뛰는 최적화 분석.#Open WebUI#Svelte#Performance#Frontend#Markdown2026년 3월 6일댓글 수 로딩 중
[Open WebUI] O(n²) unshift를 O(n) push+reverse로 교체하여 메시지 빌드 최적화Svelte 프론트엔드에서 Array.unshift() 반복 호출로 인한 O(n²) 병목을 push()+reverse()로 개선한 분석.#Open WebUI#JavaScript#Performance#Algorithm#Time Complexity2026년 3월 6일댓글 수 로딩 중
[Open WebUI] Shiki 지연 로딩으로 초기 번들 5~10MB 감소Open WebUI 프론트엔드에서 shiki 코드 하이라이터를 동적 import로 전환하여 초기 페이지 로드 시 5~10MB의 JavaScript를 제거한 PR 분석.#Open WebUI#Frontend#Bundle Size#Lazy Loading#Shiki#Dynamic Import2026년 3월 6일댓글 수 로딩 중