[논문리뷰] BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection최근 LLMs의 context window가 기하급수적으로 확장되면서 long-document understanding의 잠재력이 커졌지만, 이는 심각한 inference latency와 정보 utilization 병목 현상을 야기했습니다.#Review#Prompt Compression#Long-Context LLMs#Training-Free#Hierarchical Selection#Structure-Aware#Inference Latency#Information Utilization2026년 3월 22일댓글 수 로딩 중
[논문리뷰] Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video ModelsDistilled autoregressive (AR) video models는 efficient streaming generation을 가능하게 하지만, 종종 human visual preferences와 misalign되어 artifacts나 unnatural motion dynamics를 보입니다.#Review#Video Generation#Distilled Autoregressive Models#Reinforcement Learning (RL)#Human Preferences#Streaming Generation#Forward-Process RL#Reward Hacking#Temporal Consistency2026년 3월 22일댓글 수 로딩 중
[논문리뷰] AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science본 논문은 도메인 특화 Data Science 태스크에서 AI 에이전트가 인간 전문가의 성능을 어느 수준까지 대체할 수 있는지, 그리고 어떤 영역에서 인간의 전문성이 여전히 우위를 지니는지 평가하기 위한 벤치마크 AgentDS를 제안합니다.#Review#AI Agents#Human-AI Collaboration#Data Science Benchmark#Large Language Models#Domain-Specific Reasoning#Multi-Industry Evaluation2026년 3월 22일댓글 수 로딩 중
[논문리뷰] A Subgoal-driven Framework for Improving Long-Horizon LLM AgentsLarge language model (LLM)-based agents는 디지털 환경에서 강력한 자율 제어기로 부상했지만, 특히 웹 내비게이션과 같이 동적인 콘텐츠와 긴 액션 시퀀스를 요구하는 복잡한 task에서 long-horizon planning 능력의 약점을 드러낸다.#Review#LLM Agents#Subgoals#Reinforcement Learning#Web Navigation#Long-Horizon Planning#Reward Shaping#Curriculum Learning2026년 3월 22일댓글 수 로딩 중
[sglang] SGLang의 SM120 FP8 Blockwise GEMM 성능 최적화: Pingpong 스케줄 도입SM120 아키텍처에서 FP8 Blockwise GEMM 연산 시 Pingpong 스케줄을 도입하여 소형 M 사이즈에서 성능을 약 2배 향상시켰습니다.#CUDA#CUTLASS#GEMM#FP8#SGLang#SM1202026년 3월 22일댓글 수 로딩 중
[Axolotl] LoRA 커널에 bias, dropout, DoRA, embedding 지원 추가Axolotl의 Triton LoRA 커널을 확장하여 bias 파라미터, dropout, DoRA(Weight-Decomposed LoRA), embedding 레이어를 지원하도록 개선한 분석.#Axolotl#LoRA#DoRA#Triton#LLM Training#Performance#PEFT2026년 3월 22일댓글 수 로딩 중
[Axolotl] Qwen 3.5 모델 Liger 커널 지원 및 fused RMSNorm+Gated 커널 추가Axolotl에 Qwen 3.5 / Qwen 3.5 MoE 모델용 Liger FLCE 커널 지원과 fused RMSNorm+SiLU gate Triton 커널을 추가한 분석.#Axolotl#Liger Kernel#Qwen 3.5#RMSNorm#Triton#LLM Training#Performance2026년 3월 22일댓글 수 로딩 중
[Open WebUI] 메모리 항목 삭제 시 확인 대화상자 추가개별 메모리 삭제에 확인 대화상자를 추가하여 실수 방지 UX 개선#Open WebUI#Svelte#UX#Performance2026년 3월 21일댓글 수 로딩 중
[Axolotl] ScatterMoE LoRA Triton 커널의 autotune 탐색 공간 축소ScatterMoE LoRA Triton 커널의 autotune 설정에서 불필요하게 큰 block size를 제거하여 컴파일 시간을 단축하고 shared memory 초과를 방지한 분석.#Axolotl#Triton#ScatterMoE#LoRA#Autotune#Performance#GPU2026년 3월 21일댓글 수 로딩 중
[ray] Ray Data의 차세대 데이터 소스 API: DataSourceV2 설계 및 최적화 전략Ray Data의 새로운 DataSourceV2 아키텍처를 통해 데이터 소스별 최적화와 확장성을 어떻게 달성했는지 분석합니다.#Ray#DataEngineering#DistributedSystems#Python#PyArrow2026년 3월 21일댓글 수 로딩 중
[Triton] AMD RDNA3에서 buffer cache modifier LLVM IR 전파RDNA3 타겟에서 .cg/.cs/.cv/.wt cache modifier가 무시되던 문제를 수정하여 non-temporal 메모리 접근 지원#Triton#AMD#RDNA3#Cache Optimization#LLVM IR2026년 3월 21일댓글 수 로딩 중
[Ultralytics] Pose Loss의 keypoint 배치 루프를 벡터 연산으로 최적화Pose 모델 학습에서 keypoint를 배치별로 정리하는 for 루프를 scatter_add 기반 벡터화로 대체합니다.#Ultralytics#YOLO#Pose Estimation#Vectorization#PyTorch2026년 3월 20일댓글 수 로딩 중
[triton] Global Sanitizer에 TMA 및 cp.async 연산 부분 지원 추가Triton의 Global Sanitizer에 tensor descriptor 디코딩과 TMA/cp.async 연산의 메모리 접근 추적 기능을 추가한 PR 분석.#Triton#GSan#Sanitizer#TMA#AsyncCopy#Debugging2026년 3월 20일댓글 수 로딩 중
[axolotl] Context Parallel 이중 시퀀스 분할 버그 수정: noop context manager로 중복 적용 방지Context Parallel 학습 시 accelerate와 axolotl이 시퀀스를 이중으로 분할하는 문제를 noop context manager 패치로 해결한 사례를 분석합니다.#Axolotl#Context Parallel#Distributed Training#Bug Fix2026년 3월 20일댓글 수 로딩 중
[PaddleOCR] MCP 서버에서 모든 OCR 결과 배치를 파싱하도록 수정로컬 OCR 결과의 첫 번째 배치만 처리하던 버그를 수정하여 전체 결과를 올바르게 파싱합니다.#PaddleOCR#MCP#Bug Fix#OCR#Python2026년 3월 20일댓글 수 로딩 중
[axolotl] Tensor Parallelism batch_size 계산 버그 수정: dp_world_size 기반으로 전환Tensor Parallelism 환경에서 batch_size와 total_num_steps가 잘못 계산되던 버그를 dp_world_size 기반으로 수정하고, 파라미터화된 테스트를 추가한 사례를 분석합니다.#Axolotl#Tensor Parallelism#Distributed Training#Bug Fix2026년 3월 20일댓글 수 로딩 중
[axolotl] Gemma 3 QLoRA 설정 개선: Vision Tower 동결과 model_type 제거Gemma 3 모델의 QLoRA 학습 설정에서 불필요한 model_type 명시를 제거하고, unfrozen_parameters로 Vision Tower를 동결하는 패턴을 분석합니다.#Axolotl#Gemma3#QLoRA#Fine-tuning#Configuration2026년 3월 20일댓글 수 로딩 중
[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.#Axolotl#ScatterMoE#LoRA#Triton#MoE#Benchmark#GPU#Performance2026년 3월 19일댓글 수 로딩 중
[논문리뷰] VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining최근 MLLMs는 External Tools와의 통합을 통해 Agentic Problem Solvers로 발전하고 있으나, 복잡한 Visual Tasks를 위해 다양한 도구를 정확하게 실행하고 효과적으로 조합하는 데 지속적인 병목 현상(persistent bottleneck)을 겪고 있습니다.#Review#Multimodal Large Language Models#Visual Tool Chaining#Agentic Models#Benchmark#OpenCV#Compositional Reasoning#Tool-use Evaluation2026년 3월 19일댓글 수 로딩 중
[논문리뷰] SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing현재 instruction-guided video editing models은 fine-grained semantic modifications와 faithful motion preservation 간의 균형을 맞추는 데 어려움을 겪고 있습니다.#Review#Instruction-Guided Video Editing#Diffusion Models#Semantic Anchoring#Motion Alignment#Factorized Pre-training#Zero-shot Learning#Temporal Consistency2026년 3월 19일댓글 수 로딩 중