[SGLang] 프로젝트 전체 아키텍처 분석 - 개요 및 목차SGLang의 전체 아키텍처를 17개 계층으로 분석하고, 130개 핵심 모듈과 관련 논문을 정리한 시리즈의 개요 포스트#sglang#Architecture#LLM Inference#RadixAttention2026년 4월 9일댓글 수 로딩 중
[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models본 논문은 최신 Text-to-Video (T2V) 모델들이 고품질 영상을 생성함에도 불구하고, 프롬프트에 명시된 객체의 수를 정확하게 반영하지 못하는 수치적 정렬(numerical misalignment) 문제를 해결하고자 합니다.#Review#Text-to-Video#Diffusion Transformer#Numerical Alignment#Training-free#Layout-guided Generation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] ViVa: A Video-Generative Value Model for Robot Reinforcement Learning본 논문은 로봇 조작 과업에서 기존 VLM(Vision-Language Model) 기반 가치 함수가 가진 시간적 역학(Temporal Dynamics) 이해 부족 문제를 해결하고자 합니다.#Review#Robot Reinforcement Learning#Video-Generative Model#Value Function#Embodied AI#Future Prediction#Spatiotemporal Priors2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces본 논문은 기존 사용자 시뮬레이션 연구가 isolated scenario에 국한되거나 synthetic data에 의존하여 인간 행동의 전체적(holistic) 특성을 파악하지 못하는 문제를 해결하고자 한다.#Review#Large Language Models#User Simulation#Human Behavior Modeling#Long-horizon#Cross-scenario#Benchmark2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Structured Distillation of Web Agent Capabilities Enables Generalization본 논문은 최신 Frontier LLM이 보유한 웹 에이전트 능력을 로컬에 배포 가능한 소형 모델로 효율적으로 이전(Distillation)하는 것을 목적으로 합니다. 기존 연구들은 다양한 데이터 생성 파이프라인을 제시했지만, 이를 체계적으로 비교할 수 있는 표준화된 프레임워크가 부족했습니다.#Review#Web Agent#Knowledge Distillation#Synthetic Data#Trajectory Synthesis#Agent-as-Annotators#Supervised Fine-Tuning#Generalization2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Structural Graph Probing of Vision-Language Models본 논문은 VLM의 복잡한 내부 연산 구조를 파악하기 위해, 기존의 국소적(local) 어트리뷰션 방식을 넘어선 population-level의 해석 가능성(interpretability) 프레임워크를 제안합니다.#Review#Vision-Language Models#Neural Topology#Mechanistic Interpretability#Neuron Correlation#Graph Neural Networks#Causal Intervention2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Small Vision-Language Models are Smart Compressors for Long Video Understanding저자들은 SVLM을 로컬 압축기로 활용하여 긴 비디오를 쿼리 의존적인 메모리 토큰으로 변환하는 Tempo 프레임워크를 제안합니다 . Tempo는 각 세그먼트에서 쿼리와 시각적 정보를 결합한 교차 모달 증류(cross-modal distillation)를 수행하며, ATA 기법을 통해 추론 시점의 토큰 예산(예: 4K/8K)을 엄격히 준수합니다.#Review#Multimodal Large Language Models#Long Video Understanding#Visual Token Compression#Adaptive Token Allocation#Cross-modal Distillation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] SkillClaw: Let Skills Evolve Collectively with Agentic Evolver본 연구는 다중 사용자 환경에서 발생한 대규모 상호작용 궤적을 중앙 집중적으로 수집하여 자율적으로 스킬을 개선하는 SkillClaw 프레임워크를 제안한다. 수집된 궤적은 스킬별로 그룹화되어 Agentic Evolver에 입력되며, 진화 엔진은 이를 바탕으로 스킬의 Refine, Create, Skip 여부를 결정한다.#Review#LLM Agents#Skill Evolution#Multi-user Ecosystem#Collective Learning#Agentic Evolver#Procedural Memory2026년 4월 9일댓글 수 로딩 중
[논문리뷰] SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds본 논문은 실세계의 geometry와 물리적 동역학을 시뮬레이션 내에 정렬하는 SIM1 프레임워크를 제안합니다 . 우선, 3D 스캔을 통해 실제 환경을 metric-accurate한 디지털 twin으로 재구성하고, deformation-stable solver인 AVBD를 도입하여 rigid-soft interaction의 물리적 일관성을 확보합니다 .#Review#Deformable Manipulation#Physics-Aligned Simulation#Real-to-Sim-to-Real#Data Scaling#Diffusion-based Trajectory Generation#Embodied Learning2026년 4월 9일댓글 수 로딩 중
[논문리뷰] RewardFlow: Generate Images by Optimizing What You Reward본 연구는 기존의 diffusion 기반 이미지 편집 모델들이 요구하는 고비용의 fine-tuning 또는 불안정한 inversion 과정을 극복하고, zero-shot 설정에서 보다 정교하고 일관된 편집을 수행하는 것을 목적으로 합니다.#Review#Diffusion Models#Flow Matching#Langevin Dynamics#Image Editing#Zero-shot Generation#Multi-reward Guidance#Adaptive Policy2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability본 연구는 'SFT는 Memorization에 치중하고 RL은 Generalization에 강하다'는 기존의 지배적인 통념이 실험 환경에 따른 인위적인 결과일 수 있다는 가설에서 출발합니다.#Review#Supervised Fine-Tuning#Chain-of-Thought#Generalization#Model Capability#Optimization Dynamics#Safety Degradation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models본 논문은 기존의 embodied VLM 벤치마크들이 겪고 있는 3D 환경의 복잡성 부족, Privileged State Leakage(에이전트가 내부 데이터에 직접 접근), 그리고 확장이 어려운 인간 평가 방식의 한계를 해결하기 위해 제안되었다.#Review#Vision-Language Models#Embodied AI#Long-Horizon Planning#3D Open-World Benchmark#Automated Evaluation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics본 연구에서는 Phantom이라 명명된 물리 주입형(Physics-Infused) 비디오 생성 프레임워크를 제안합니다. Phantom은 사전 학습된 비디오 확산 모델인 Wan2.2-TI2V를 기반으로 하며, 이에 병렬적인 물리 동역학 브랜치를 추가하여 latent 공간에서 물리적 상태를 예측합니다.#Review#Video Generation#Physics-Infused#Flow Matching#Latent Dynamics#V-JEPA2#Dual-Branch Architecture2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Personalizing Text-to-Image Generation to Individual Taste본 논문은 기존의 T2I 모델이 개인의 미세한 취향을 반영하지 못하고 다수의 평균적인 선호도에만 최적화되어 있다는 점을 해결하고자 합니다. 대다수의 기존 reward model은 대규모 데이터셋을 통해 '평균적인 미적 기준'을 학습하지만, 이는 개개인의 주관적이고 다양한 미적 취향을 반영하는 데 한계가 있습니다.#Review#Text-to-Image Generation#Personalization#Reward Modeling#Human Preference Alignment#Subjective Aesthetics2026년 4월 9일댓글 수 로딩 중
[논문리뷰] POS-ISP: Pipeline Optimization at the Sequence Level for Task-aware ISP본 연구는 ISP 최적화 문제를 단계적 의사결정이 아닌 단일 forward pass를 통한 전역적 시퀀스 예측 문제로 재정의한다. Sequence predictor는 GRU를 통해 이전 모듈의 컨텍스트를 고려하여 전체 모듈 시퀀스를 예측하고, Parameter predictor는 입력 이미지에 특화된 매개변수를 생성한다 .#Review#ISP#Reinforcement Learning#Task-aware#Sequence Optimization#Pipeline Design2026년 4월 9일댓글 수 로딩 중
[논문리뷰] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks본 논문은 MLLM의 강화학습 후학습(post-training) 과정에서 발생하는 보상 분포의 극심한 분산과 태스크 간 업데이트 불균형 문제를 해결합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Gaussian GRPO#Optimal Transport#Multi-task Learning#Visual Reasoning2026년 4월 9일댓글 수 로딩 중
[논문리뷰] OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence본 논문은 기존 MLLM이 언어적 능력에 비해 공간 이해 능력(거리 측정, 다중 뷰 일관성 등)이 현저히 떨어지는 'Spatial Myopia' 문제를 해결하고자 한다. 기존 연구들은 고정된 데이터셋만을 배포할 뿐, 공간 데이터를 생성하는 엔진 자체를 비공개로 운영하여 데이터의 확장성과 재현성을 저해하고 있다.#Review#Spatial Intelligence#Data Engine#3D Bounding Boxes#Multimodal Large Language Models#Data Scaling#3D Lifting2026년 4월 9일댓글 수 로딩 중
[논문리뷰] OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering저자들은 시간 순서 재구성(temporal reordering) proxy task를 기반으로 세 가지 모달리티 오케스트레이션 전략(JMI, SMS, CMM)을 제안합니다. 특히, CMM 전략은 클립별로 정보를 마스킹하여 모델이 시각과 청각 정보를 능동적으로 교차 분석하게 함으로써 학습 성능을 극대화합니다 .#Review#Omni-modal Reasoning#Reinforcement Learning#Self-supervised Learning#Jigsaw Proxy Task#Modality Orchestration#Data Filtering2026년 4월 9일댓글 수 로딩 중
[논문리뷰] MolmoWeb: Open Visual Web Agent and Open Data for the Open Web저자들은 Instruction-conditioned visual-language action policy인 MolmoWeb을 제안하며, 이를 학습시키기 위한 MolmoWebMix 데이터셋을 구축하였습니다. MolmoWeb은 Molmo2 아키텍처를 기반으로 하며, 웹 스크린샷과 작업 지시어를 입력받아 즉각적인 브라우저 액션을 출력합니다 .#Review#Web Agents#Multimodal#Vision-Language Models#Open Data#Browser-use#GUI Perception#Instruction-conditioned Policies2026년 4월 9일댓글 수 로딩 중
[논문리뷰] MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping본 논문은 기존 스타일 전이 기법들이 self-supervised 훈련 방식의 한계로 인해 스타일과 콘텐츠를 효과적으로 분리하지 못하고, 데이터셋의 품질 및 다양성 부족으로 스타일 전이 성능이 제한되는 문제를 해결하고자 한다.#Review#MegaStyle#Style Transfer#Data Curation#Diffusion Transformer#Contrastive Learning2026년 4월 9일댓글 수 로딩 중