최신 포스트

[Triton] FPSan에서 exp/exp2의 대수적 성질을 보존하는 구현

2026년 3월 26일

[SGLang] wait-for-jobs에 ETag conditional request 도입으로 API rate limit 절약

GitHub Actions의 wait-for-jobs에서 ETag 기반 조건부 요청을 사용하여 304 Not Modified 응답 시 rate limit을 소비하지 않도록 개선한다

#SGLang #CI/CD #GitHub Actions #Rate Limiting

2026년 3월 25일

[Open WebUI] 이중 RAF 제거로 스트리밍 표시 지연 32ms에서 16ms로 단축

이미 존재하는 RAF 쓰로틀링 위에 중복 RAF를 추가한 실수를 되돌려 스트리밍 렌더링 지연을 절반으로 줄인 PR 분석.

#Open WebUI #Frontend #requestAnimationFrame #Streaming #Svelte #Latency

2026년 3월 25일

[Axolotl] 플러그인에 scored rollout 디스패치, 외부 플러그인 경로 확장, vLLM 에러 처리 개선

Axolotl GRPO 트레이너에 on_rollouts_scored 플러그인 훅 추가, pkgutil로 외부 플러그인 발견 경로 확장, vLLM /reset_prefix_cache의 에러 처리를 개선한 분석.

#Axolotl #Plugin System #GRPO #vLLM #Error Handling #Python

2026년 3월 25일

[triton] AMD WMMA Utilization 개선: Unroll 제거와 상수 폴딩

LLVM 코드 생성의 루프 언롤링 문제로 인한 레지스터 스필링을 방지하고, 상수 폴딩으로 VALU 연산을 줄여 WMMA 활용률을 개선한 PR을 분석합니다.

#Triton #AMD #WMMA #Gluon #Optimization

2026년 3월 25일

[Open WebUI] sendMessage에서 중복 getChatList 호출 제거

메시지 전송 시 불필요한 사이드바 갱신 DB 쿼리 1회 제거

#Open WebUI #Svelte #Frontend Optimization #Performance

2026년 3월 25일

[Open WebUI] saveChatHandler에서 불필요한 채팅 목록 재조회 제거

메시지 저장 때마다 전체 채팅 목록을 다시 불러오던 getChatList 호출을 제거하여 불필요한 네트워크 왕복을 차단한 최적화.

#Open WebUI #Svelte #Performance #Frontend #API Call

2026년 3월 25일

[SGLang] TestQwen35WithHiCache CI 테스트 분리 및 수정

Qwen3.5 HiCache 테스트를 별도 파일로 분리하고 max_tokens를 16000으로 늘려 CI 안정성을 확보한다

#SGLang #CI #Testing #HiCache

2026년 3월 25일

[논문리뷰] WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

기존 비디오 월드 모델들은 액션에 조건화된 역학(action-conditioned dynamics)을 학습하는 데 어려움을 겪고 있는데, 이는 현재 데이터셋이 요구 사항을 충족하지 못하기 때문입니다.

#Review #World Modeling #Action-Conditioned Generation #Dataset #Generative ARPG #Explicit State Annotation #Video Generation #Long-Horizon Consistency

2026년 3월 24일

[논문리뷰] VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

기존의 Large Vision-Language Models (LVLMs) 효율성 개선 접근 방식은 주로 visual token reduction에 기반한다.

#Review #LVLM Efficiency #Sparse Interaction #Cross-Attention #Self-Attention #Adaptive Inference #Visual Feature Refinement #Computational Cost Reduction

2026년 3월 24일

[논문리뷰] UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

생성형 AI는 Interleaved Generation이 가능한 unified multimodal model로 빠르게 발전하고 있으며, 이는 반복적인 추론(iterative reasoning)을 통해 복잡한 이미지 합성(image synthesis) 작업을 해결할 잠재력을 제공합니다.

#Review #Unified Policy Optimization #Reinforcement Learning #Reasoning-Driven Generation #Interleaved Generation #Flow Matching #Markov Decision Process #Classifier-Free Guidance #Reward Hacking

2026년 3월 24일

[논문리뷰] Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

기존 Vision-Language Models (VLMs)는 Euclidean Embeddings에 기반하여 Part-to-Whole 또는 Parent-Child와 같은 계층적 관계를 캡처하는 데 한계가 있으며, Multi-Object Compositional Scenario에서 어려움을 겪는다.

2026년 3월 24일

[논문리뷰] TrajLoom: Dense Future Trajectory Generation from Video

Future motion prediction은 video understanding과 controllable video generation에 있어 매우 중요합니다.

#Review #Dense Trajectory Generation #Future Motion Prediction #Video Understanding #Flow Matching #Variational Autoencoder #Spatiotemporal Consistency #On-policy Fine-tuning #Grid-Anchor Offset Encoding

2026년 3월 24일

[논문리뷰] ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Latent World Models, 특히 V-JEPA2와 같은 JEPA-style 모델은 비디오 Observation으로부터 미래 World States를 예측하는 데 유망한 능력을 보여왔다.

#Review #Latent World Models #Vision-Language Models #Predictive Representation Learning #Dual-Temporal Sampling #Semantic Guidance #Trajectory Prediction #Egocentric Video #JEPA

2026년 3월 24일

[논문리뷰] SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

최근 Agentic MLLMs는 반복적인 시각적 도구 호출을 통해 탁월한 추론 능력을 보여주지만, Perception, Reasoning, Tool-calling의 캐스케이드(cascaded) 루프가 심각한 순차적 오버헤드를 발생시킵니다 [cite: 1, Figure 1].

#Review #Agentic MLLMs #Speculative Perception #Speculative Planning #Cognitive Gating #Answer Separability #Throughput Acceleration #Latency Reduction #Heterogeneous Parallelism

2026년 3월 24일

[논문리뷰] Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

최근 RLVR(Reinforcement Learning with Verifiable Rewards)은 LLM의 추론 능력을 크게 향상시켰지만, 이러한 개선이 token-level에서 어떤 메커니즘으로 발생하는지에 대한 이해는 부족합니다.

2026년 3월 24일

[논문리뷰] SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

최근 3D 생성 모델들은 고품질의 Static Meshes 를 생성하는 데 집중하고 있어, 'Sim-ready'한 상호작용 가능한 객체를 만드는 데에는 한계가 있었습니다.

#Review #Articulated Assets #Multimodal Large Language Model (MLLM)#3D Object Decomposition #Kinematic Prediction #Sparse Voxel Quantization #Simulation-ready Assets #URDF Generation

2026년 3월 24일

[논문리뷰] Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Multimodal Chain-of-Thought (CoT) 추론은 Large Vision-Language Models (LVLMs)가 시각 정보와 다단계 추론을 통합하는 데 필수적이다.

#Review #Multimodal Chain-of-Thought #Reinforcement Learning #Token-Level Optimization #Visual Similarity #Entropy

2026년 3월 24일

[논문리뷰] Regulating AI Agents

AI agents의 급속한 발전과 Mainstream화는 기존 AI system과는 다른 Unique한 Governance Challenge를 야기하고 있다. 현행 EU AI Act 는 이러한 Transformative Technology의 특성을 충분히 반영하지 못하고 있다는 것이 본 연구의 핵심 문제 제기이다.

#Review #AI agents #EU AI Act #GPAI models #Systemic risk #Self-regulation #Institutional monitoring #AI governance

2026년 3월 24일

[논문리뷰] RealMaster: Lifting Rendered Scenes into Photorealistic Video

최신 비디오 생성 모델들은 뛰어난 실사 이미지(photorealism)를 만들어내지만, 특정 장면 요구사항에 맞춰 생성된 콘텐츠를 정밀하게 제어하는 데는 한계가 있습니다. 또한, 명시적인 기하학적 구조(explicit geometry)가 없기 때문에 3D 일관성(3D consistency)을 보장하기 어렵습니다.

#Review #Sim-to-Real Translation #Photorealistic Video Generation #Video Diffusion Models #Structural Precision #Global Semantic Transformation #IC-LoRA #Temporal Consistency

2026년 3월 24일