최신 포스트

[SGLang] gRPC 서버: 분산 추론을 위한 고성능 통신 계층

SGLang의 gRPC 서버 구현을 분석한다. HTTP 대비 gRPC의 장점, Protobuf 메시지 정의, Streaming RPC를 통한 실시간 토큰 전달, 분산 환경에서의 활용 방식을 코드와 함께 살펴본다.

#sglang #gRPC #Distributed Inference #Protobuf

2026년 4월 9일

[SGLang] Anthropic/Ollama 호환 API: 멀티 프로토콜 LLM 서빙

SGLang의 Anthropic Messages API와 Ollama API 호환 레이어를 분석한다. 프로토콜 변환, Smart Router를 통한 지능형 라우팅, 세 가지 API 프로토콜 간 차이를 코드와 함께 비교한다.

#sglang #Anthropic API #Ollama API #Multi-Protocol

2026년 4월 9일

[SGLang] OpenAI 호환 API: Chat, Completions, Embedding 엔드포인트 구현

SGLang의 OpenAI 호환 API 레이어를 분석한다. /v1/chat/completions, /v1/completions, /v1/embeddings 엔드포인트의 구현, 프로토콜 변환, 스트리밍 응답 처리를 코드와 함께 살펴본다.

#sglang #OpenAI API #Chat Completions #Streaming

2026년 4월 9일

[SGLang] Engine: 멀티프로세스 오케스트레이터의 설계와 구현

SGLang Engine 클래스의 멀티프로세스 아키텍처를 분석한다. ZMQ IPC 기반 프로세스 간 통신, TokenizerManager-Scheduler-DetokenizerManager 파이프라인, 프로세스 생성과 라이프사이클 관리를 코드와 함께 살펴본다.

#sglang #Engine #Multiprocessing #ZMQ IPC

2026년 4월 9일

[SGLang] FastAPI 기반 HTTP 서버: 비동기 추론 서빙의 진입점

SGLang의 FastAPI 기반 HTTP 서버 구현을 분석한다. 라우트 등록, 미들웨어 구성, OpenAI 호환 핸들러 초기화, 비동기 요청 처리 흐름을 코드와 함께 살펴본다.

#sglang #HTTP Server #FastAPI #LLM Serving

2026년 4월 9일

[SGLang] 프로젝트 전체 아키텍처 분석 - 개요 및 목차

SGLang의 전체 아키텍처를 17개 계층으로 분석하고, 130개 핵심 모듈과 관련 논문을 정리한 시리즈의 개요 포스트

#sglang #Architecture #LLM Inference #RadixAttention

2026년 4월 9일

[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

본 논문은 최신 Text-to-Video (T2V) 모델들이 고품질 영상을 생성함에도 불구하고, 프롬프트에 명시된 객체의 수를 정확하게 반영하지 못하는 수치적 정렬(numerical misalignment) 문제를 해결하고자 합니다.

#Review #Text-to-Video #Diffusion Transformer #Numerical Alignment #Training-free #Layout-guided Generation

2026년 4월 9일

[논문리뷰] ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

본 논문은 로봇 조작 과업에서 기존 VLM(Vision-Language Model) 기반 가치 함수가 가진 시간적 역학(Temporal Dynamics) 이해 부족 문제를 해결하고자 합니다.

#Review #Robot Reinforcement Learning #Video-Generative Model #Value Function #Embodied AI #Future Prediction #Spatiotemporal Priors

2026년 4월 9일

[논문리뷰] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

본 논문은 기존 사용자 시뮬레이션 연구가 isolated scenario에 국한되거나 synthetic data에 의존하여 인간 행동의 전체적(holistic) 특성을 파악하지 못하는 문제를 해결하고자 한다.

#Review #Large Language Models #User Simulation #Human Behavior Modeling #Long-horizon #Cross-scenario #Benchmark

2026년 4월 9일

[논문리뷰] Structured Distillation of Web Agent Capabilities Enables Generalization

본 논문은 최신 Frontier LLM이 보유한 웹 에이전트 능력을 로컬에 배포 가능한 소형 모델로 효율적으로 이전(Distillation)하는 것을 목적으로 합니다. 기존 연구들은 다양한 데이터 생성 파이프라인을 제시했지만, 이를 체계적으로 비교할 수 있는 표준화된 프레임워크가 부족했습니다.

#Review #Web Agent #Knowledge Distillation #Synthetic Data #Trajectory Synthesis #Agent-as-Annotators #Supervised Fine-Tuning #Generalization

2026년 4월 9일

[논문리뷰] Structural Graph Probing of Vision-Language Models

본 논문은 VLM의 복잡한 내부 연산 구조를 파악하기 위해, 기존의 국소적(local) 어트리뷰션 방식을 넘어선 population-level의 해석 가능성(interpretability) 프레임워크를 제안합니다.

#Review #Vision-Language Models #Neural Topology #Mechanistic Interpretability #Neuron Correlation #Graph Neural Networks #Causal Intervention

2026년 4월 9일

[논문리뷰] Small Vision-Language Models are Smart Compressors for Long Video Understanding

저자들은 SVLM을 로컬 압축기로 활용하여 긴 비디오를 쿼리 의존적인 메모리 토큰으로 변환하는 Tempo 프레임워크를 제안합니다 . Tempo는 각 세그먼트에서 쿼리와 시각적 정보를 결합한 교차 모달 증류(cross-modal distillation)를 수행하며, ATA 기법을 통해 추론 시점의 토큰 예산(예: 4K/8K)을 엄격히 준수합니다.

#Review #Multimodal Large Language Models #Long Video Understanding #Visual Token Compression #Adaptive Token Allocation #Cross-modal Distillation

2026년 4월 9일

[논문리뷰] SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

본 연구는 다중 사용자 환경에서 발생한 대규모 상호작용 궤적을 중앙 집중적으로 수집하여 자율적으로 스킬을 개선하는 SkillClaw 프레임워크를 제안한다. 수집된 궤적은 스킬별로 그룹화되어 Agentic Evolver에 입력되며, 진화 엔진은 이를 바탕으로 스킬의 Refine, Create, Skip 여부를 결정한다.

#Review #LLM Agents #Skill Evolution #Multi-user Ecosystem #Collective Learning #Agentic Evolver #Procedural Memory

2026년 4월 9일

[논문리뷰] SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

본 논문은 실세계의 geometry와 물리적 동역학을 시뮬레이션 내에 정렬하는 SIM1 프레임워크를 제안합니다 . 우선, 3D 스캔을 통해 실제 환경을 metric-accurate한 디지털 twin으로 재구성하고, deformation-stable solver인 AVBD를 도입하여 rigid-soft interaction의 물리적 일관성을 확보합니다 .

#Review #Deformable Manipulation #Physics-Aligned Simulation #Real-to-Sim-to-Real #Data Scaling #Diffusion-based Trajectory Generation #Embodied Learning

2026년 4월 9일

[논문리뷰] RewardFlow: Generate Images by Optimizing What You Reward

본 연구는 기존의 diffusion 기반 이미지 편집 모델들이 요구하는 고비용의 fine-tuning 또는 불안정한 inversion 과정을 극복하고, zero-shot 설정에서 보다 정교하고 일관된 편집을 수행하는 것을 목적으로 합니다.

#Review #Diffusion Models #Flow Matching #Langevin Dynamics #Image Editing #Zero-shot Generation #Multi-reward Guidance #Adaptive Policy

2026년 4월 9일

[논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

본 연구는 'SFT는 Memorization에 치중하고 RL은 Generalization에 강하다'는 기존의 지배적인 통념이 실험 환경에 따른 인위적인 결과일 수 있다는 가설에서 출발합니다.

#Review #Supervised Fine-Tuning #Chain-of-Thought #Generalization #Model Capability #Optimization Dynamics #Safety Degradation

2026년 4월 9일

[논문리뷰] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

본 논문은 기존의 embodied VLM 벤치마크들이 겪고 있는 3D 환경의 복잡성 부족, Privileged State Leakage(에이전트가 내부 데이터에 직접 접근), 그리고 확장이 어려운 인간 평가 방식의 한계를 해결하기 위해 제안되었다.

#Review #Vision-Language Models #Embodied AI #Long-Horizon Planning #3D Open-World Benchmark #Automated Evaluation

2026년 4월 9일

[논문리뷰] Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

본 연구에서는 Phantom이라 명명된 물리 주입형(Physics-Infused) 비디오 생성 프레임워크를 제안합니다. Phantom은 사전 학습된 비디오 확산 모델인 Wan2.2-TI2V를 기반으로 하며, 이에 병렬적인 물리 동역학 브랜치를 추가하여 latent 공간에서 물리적 상태를 예측합니다.

#Review #Video Generation #Physics-Infused #Flow Matching #Latent Dynamics #V-JEPA2 #Dual-Branch Architecture

2026년 4월 9일

[논문리뷰] Personalizing Text-to-Image Generation to Individual Taste

본 논문은 기존의 T2I 모델이 개인의 미세한 취향을 반영하지 못하고 다수의 평균적인 선호도에만 최적화되어 있다는 점을 해결하고자 합니다. 대다수의 기존 reward model은 대규모 데이터셋을 통해 '평균적인 미적 기준'을 학습하지만, 이는 개개인의 주관적이고 다양한 미적 취향을 반영하는 데 한계가 있습니다.

#Review #Text-to-Image Generation #Personalization #Reward Modeling #Human Preference Alignment #Subjective Aesthetics

2026년 4월 9일

[논문리뷰] POS-ISP: Pipeline Optimization at the Sequence Level for Task-aware ISP

본 연구는 ISP 최적화 문제를 단계적 의사결정이 아닌 단일 forward pass를 통한 전역적 시퀀스 예측 문제로 재정의한다. Sequence predictor는 GRU를 통해 이전 모듈의 컨텍스트를 고려하여 전체 모듈 시퀀스를 예측하고, Parameter predictor는 입력 이미지에 특화된 매개변수를 생성한다 .

#Review #ISP #Reinforcement Learning #Task-aware #Sequence Optimization #Pipeline Design

2026년 4월 9일