[axolotl] Async GRPO 지원: vLLM 비동기 생성과 Importance Sampling으로 RLHF 학습 가속화axolotl에 Async GRPO를 도입하여 vLLM 생성과 학습을 병렬화하고, Importance Sampling 보정으로 분포 이동 문제를 해결한 대규모 기능 추가를 분석합니다.#Axolotl#GRPO#RLHF#vLLM#Async Training#LoRA2026년 3월 17일댓글 수 로딩 중
[llm-compressor] Intermediates Cache Prefetch - 중간 결과 프리페칭양자화 캘리브레이션의 중간 결과를 프리페칭하여 레이어 순차 처리의 대기 시간을 감소#llm-compressor#Performance2026년 3월 17일댓글 수 로딩 중
[ray] Ray Serve P99 레이턴시 회귀 수정 — 큐 길이 캐시 미감소 버그큐 길이 캐시가 증가만 하고 감소하지 않아 발생한 P99 레이턴시 회귀를 수정#Python#Ray Serve#Performance#Bug Fix#Distributed Systems2026년 3월 17일댓글 수 로딩 중
[pytest] request.getfixturevalue()의 dirty optimization 제거동적으로 요청한 fixture를 arg2fixturedefs에 추가하던 불필요한 최적화를 제거하고 Mapping 타입으로 변경#Python#pytest#Fixtures#Refactoring#Code Quality2026년 3월 17일댓글 수 로딩 중
[axolotl] transformers 5.3.0 / TRL 0.29.0 업그레이드: API 변경 대응과 deprecated 설정 처리transformers 5.3.0과 TRL 0.29.0으로의 메이저 의존성 업그레이드에서 발생하는 breaking change를 체계적으로 처리한 사례를 분석합니다.#Axolotl#Transformers#TRL#Dependency Upgrade#Migration2026년 3월 16일댓글 수 로딩 중
[Ultralytics] TensorRT 문서에서 더 이상 유효하지 않은 INT8 배치 2배 참조 제거INT8 캘리브레이션 시 배치 크기를 자동으로 2배로 늘리던 동작이 제거된 후, 관련 문서를 업데이트합니다.#Ultralytics#TensorRT#INT8#Quantization#Documentation2026년 3월 16일댓글 수 로딩 중
[triton] Consumer Blackwell(sm_120)에서 PTX Codegen Segfault 수정RTX 5070 Ti 등 consumer Blackwell GPU에서 sm_120a suffix 사용으로 인한 런타임 segfault를 수정한 사례를 분석합니다.#Triton#NVIDIA#GPU#Blackwell#PTX#BugFix2026년 3월 16일댓글 수 로딩 중
[vllm] FlashInfer MoE A2A Kernel - NVLink 기반 Expert Parallelism 통신FlashInfer의 NVLink two-sided/one-sided All-to-All 커널을 통합하여 MoE 모델의 expert parallel 통신 가속#vllm#Performance2026년 3월 16일댓글 수 로딩 중
[triton] Fork된 서브프로세스에서 간헐적 SIGABRT 충돌 수정LLVM의 내부 병렬 처리가 fork-safe하지 않아 발생하는 간헐적 SIGABRT를 LLVM 스레드 풀 비활성화로 해결한 PR 분석.#Triton#LLVM#Fork#SIGABRT#Threading#BugFix2026년 3월 16일댓글 수 로딩 중
[triton] AMD GFX1250에서 Buffer Atomic 연산 활성화GFX1250 아키텍처에서 buffer atomic RMW/CAS 지원을 추가하고, SCOPE_DEV cache policy와 packed bf16 fadd를 구현한 사례를 분석합니다.#Triton#AMD#GPU#GFX1250#Atomics2026년 3월 16일댓글 수 로딩 중
[Ray Core] OOM Killer에서 대용량 메모리를 점유한 유휴 워커를 우선 종료메모리 부족 시 태스크가 할당된 워커만 종료하던 OOM Killer를 개선하여, 유휴 상태에서 대량 메모리를 점유하는 워커를 우선 종료하도록 변경한 분석.#Ray#C++#Performance#OOM#Memory Management2026년 3월 16일댓글 수 로딩 중
[axolotl] FSDP CPU RAM Efficient Loading 패치: non-rank-0 프로세스의 불필요한 가중치 초기화 방지FSDP 분산 학습에서 cpu_ram_efficient_loading 사용 시 non-rank-0 프로세스가 가중치를 재초기화하는 문제를 monkeypatch로 해결한 사례를 분석합니다.#Axolotl#FSDP#Distributed Training#Memory Optimization#Monkeypatch2026년 3월 16일댓글 수 로딩 중
[논문리뷰] daVinci-Env: Open SWE Environment Synthesis at ScaleLarge Language Models (LLMs)의 발전은 자율적인 Software Engineering (SWE) agent 개발을 가속화하고 있지만, 이러한 agent를 효과적으로 훈련하기 위해서는 대규모의 실행 가능하며 검증 가능한 환경이 필수적입니다.#Review#SWE Agents#Environment Synthesis#Large Language Models#Dockerfile#SWE-Bench Verified#Data Scaling#Quality Curation2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Visual-ERM: Reward Modeling for Visual EquivalenceVision-to-Code 작업은 AI 지원 프론트엔드 개발, 과학 논문 파싱, 지식 관리 및 시스템 통합과 같은 다양한 하위 시스템에 필수적인 핵심 기능입니다.#Review#Reward Modeling#Vision-to-Code#Reinforcement Learning#Multimodal Generative Model#Visual Equivalence#Fine-grained Feedback#Test-Time Scaling2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously온라인 Video Large Language Models (VideoLLMs) 는 스트리밍 시각 입력(streaming visual inputs)을 해석하고 실시간으로 응답하는 데 필수적이며, 특히 Embodied Intelligence와 상호작용형 AI 어시스턴트에서 중요하다.#Review#Streaming Video Understanding#VideoLLMs#Chain-of-Thought (CoT)#Real-time AI#Reinforcement Learning#Knowledge Graphs#Streaming Thinking#Low Latency2026년 3월 15일댓글 수 로딩 중
[논문리뷰] VQQA: An Agentic Approach for Video Evaluation and Quality Improvement비디오 생성 모델의 빠른 발전에도 불구하고, 복잡한 사용자 의도에 모델 Output을 맞추는 것은 여전히 큰 과제입니다.#Review2026년 3월 15일댓글 수 로딩 중
[논문리뷰] V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration기존 image restoration 방법론은 주로 task-specific modeling에 초점을 맞추어 각 degradation type별로 상당한 supervision(백만 개 이상의 샘플)을 요구했습니다. 이는 (a) Traditional Image Restoration `#Review2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language ModelsMultimodal Large Language Models (MLLMs)는 Offline Video Understanding Task에서 뛰어난 성능을 보였지만, Live Broadcasting, Monitoring, Robotic Assistants와 같이 continuously arriving video stream에 대한 Online Multi-turn Interaction에서는 약점을 드러냅니다.#Review#Streaming Video Reasoning#Multi-Turn Interaction#Segment-Level Memory#Causal Mask#Positional Encoding#Dual KV Cache#Multimodal Large Language Models2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation본 연구는 오픈 월드 환경에서 Embodied Agent가 Long-Horizon Compound Task를 자율적으로 수행하는 데 있어 Single-Step Planning Quality보다는 상호작용 경험을 어떻게 체계화하고 진화시키는지가 핵심 병목(bottleneck)임을 지적합니다.#Review2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents최근 Large Language Models (LLMs)의 신뢰성을 향상하기 위해 test-time scaling 이 보편화되었지만, 기존 접근 방식은 컴퓨팅 리소스를 무한하다고 가정하여 에이전트가 중복되거나 막다른 길(dead-end) 궤적에 token 및 tool budgets 을 소진하는 문제가 있습니다.#Review2026년 3월 15일댓글 수 로딩 중