[SGLang] TestQwen35WithHiCache CI 테스트 분리 및 수정Qwen3.5 HiCache 테스트를 별도 파일로 분리하고 max_tokens를 16000으로 늘려 CI 안정성을 확보한다#SGLang#CI#Testing#HiCache2026년 3월 25일댓글 수 로딩 중
[논문리뷰] WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG기존 비디오 월드 모델들은 액션에 조건화된 역학(action-conditioned dynamics)을 학습하는 데 어려움을 겪고 있는데, 이는 현재 데이터셋이 요구 사항을 충족하지 못하기 때문입니다.#Review#World Modeling#Action-Conditioned Generation#Dataset#Generative ARPG#Explicit State Annotation#Video Generation#Long-Horizon Consistency2026년 3월 24일댓글 수 로딩 중
[논문리뷰] VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions기존의 Large Vision-Language Models (LVLMs) 효율성 개선 접근 방식은 주로 visual token reduction에 기반한다.#Review#LVLM Efficiency#Sparse Interaction#Cross-Attention#Self-Attention#Adaptive Inference#Visual Feature Refinement#Computational Cost Reduction2026년 3월 24일댓글 수 로딩 중
[논문리뷰] UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation생성형 AI는 Interleaved Generation이 가능한 unified multimodal model로 빠르게 발전하고 있으며, 이는 반복적인 추론(iterative reasoning)을 통해 복잡한 이미지 합성(image synthesis) 작업을 해결할 잠재력을 제공합니다.#Review#Unified Policy Optimization#Reinforcement Learning#Reasoning-Driven Generation#Interleaved Generation#Flow Matching#Markov Decision Process#Classifier-Free Guidance#Reward Hacking2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models기존 Vision-Language Models (VLMs)는 Euclidean Embeddings에 기반하여 Part-to-Whole 또는 Parent-Child와 같은 계층적 관계를 캡처하는 데 한계가 있으며, Multi-Object Compositional Scenario에서 어려움을 겪는다.#Review2026년 3월 24일댓글 수 로딩 중
[논문리뷰] TrajLoom: Dense Future Trajectory Generation from VideoFuture motion prediction은 video understanding과 controllable video generation에 있어 매우 중요합니다.#Review#Dense Trajectory Generation#Future Motion Prediction#Video Understanding#Flow Matching#Variational Autoencoder#Spatiotemporal Consistency#On-policy Fine-tuning#Grid-Anchor Offset Encoding2026년 3월 24일댓글 수 로딩 중
[논문리뷰] ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning ModelLatent World Models, 특히 V-JEPA2와 같은 JEPA-style 모델은 비디오 Observation으로부터 미래 World States를 예측하는 데 유망한 능력을 보여왔다.#Review#Latent World Models#Vision-Language Models#Predictive Representation Learning#Dual-Temporal Sampling#Semantic Guidance#Trajectory Prediction#Egocentric Video#JEPA2026년 3월 24일댓글 수 로딩 중
[논문리뷰] SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning최근 Agentic MLLMs는 반복적인 시각적 도구 호출을 통해 탁월한 추론 능력을 보여주지만, Perception, Reasoning, Tool-calling의 캐스케이드(cascaded) 루프가 심각한 순차적 오버헤드를 발생시킵니다 [cite: 1, Figure 1].#Review#Agentic MLLMs#Speculative Perception#Speculative Planning#Cognitive Gating#Answer Separability#Throughput Acceleration#Latency Reduction#Heterogeneous Parallelism2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs최근 RLVR(Reinforcement Learning with Verifiable Rewards)은 LLM의 추론 능력을 크게 향상시켰지만, 이러한 개선이 token-level에서 어떤 메커니즘으로 발생하는지에 대한 이해는 부족합니다.#Review2026년 3월 24일댓글 수 로딩 중
[논문리뷰] SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM최근 3D 생성 모델들은 고품질의 Static Meshes 를 생성하는 데 집중하고 있어, 'Sim-ready'한 상호작용 가능한 객체를 만드는 데에는 한계가 있었습니다.#Review#Articulated Assets#Multimodal Large Language Model (MLLM)#3D Object Decomposition#Kinematic Prediction#Sparse Voxel Quantization#Simulation-ready Assets#URDF Generation2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Rethinking Token-Level Policy Optimization for Multimodal Chain-of-ThoughtMultimodal Chain-of-Thought (CoT) 추론은 Large Vision-Language Models (LVLMs)가 시각 정보와 다단계 추론을 통합하는 데 필수적이다.#Review#Multimodal Chain-of-Thought#Reinforcement Learning#Token-Level Optimization#Visual Similarity#Entropy2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Regulating AI AgentsAI agents의 급속한 발전과 Mainstream화는 기존 AI system과는 다른 Unique한 Governance Challenge를 야기하고 있다. 현행 EU AI Act 는 이러한 Transformative Technology의 특성을 충분히 반영하지 못하고 있다는 것이 본 연구의 핵심 문제 제기이다.#Review#AI agents#EU AI Act#GPAI models#Systemic risk#Self-regulation#Institutional monitoring#AI governance2026년 3월 24일댓글 수 로딩 중
[논문리뷰] RealMaster: Lifting Rendered Scenes into Photorealistic Video최신 비디오 생성 모델들은 뛰어난 실사 이미지(photorealism)를 만들어내지만, 특정 장면 요구사항에 맞춰 생성된 콘텐츠를 정밀하게 제어하는 데는 한계가 있습니다. 또한, 명시적인 기하학적 구조(explicit geometry)가 없기 때문에 3D 일관성(3D consistency)을 보장하기 어렵습니다.#Review#Sim-to-Real Translation#Photorealistic Video Generation#Video Diffusion Models#Structural Precision#Global Semantic Transformation#IC-LoRA#Temporal Consistency2026년 3월 24일댓글 수 로딩 중
[논문리뷰] PEARL: Personalized Streaming Video Understanding Model인간의 새로운 개념 인지 과정은 본질적으로 스트리밍(streaming) 프로세스입니다. 우리는 끊임없이 새로운 객체나 신원을 인식하고 시간이 지남에 따라 기억을 업데이트합니다. 그러나 현재의 멀티모달(multimodal) 개인화 방법론들은 주로 정적인 이미지나 오프라인(offline) 비디오에 국한되어 있습니다.#Review#Personalized Streaming Video Understanding#PSVU#PEARL-Bench#Dual-grained Memory System#Concept-aware Retrieval Algorithm#Vision-Language Models#Real-time AI Assistants2026년 3월 24일댓글 수 로딩 중
[논문리뷰] MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation최근 multi-reference image generation 시스템은 하나의 이미지 내에서 여러 entity를 세밀하게 제어하는 기능에 대한 기대를 높이고 있다.#Review#Multi-subject Generation#Attribute Misbinding#Image Generation#Benchmark#Evaluation Protocol#Deep Learning#Computer Vision2026년 3월 24일댓글 수 로딩 중
[논문리뷰] MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding최근 Vision-Language Models (VLMs)의 발전에도 불구하고, 대부분의 기존 문서 OCR 시스템들은 autoregressive (AR) decoding 방식에 의존하고 있습니다.#Review#Document OCR#Diffusion Models#Inverse Rendering#Parallel Decoding#Block-Attention#Curriculum Learning#Vision-Language Models2026년 3월 24일댓글 수 로딩 중
[논문리뷰] From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM AgentsLLM 기반 시스템은 단일 프롬프트에 응답하는 단순한 챗봇을 넘어, LLM 호출, 정보 검색, 툴 사용, 코드 실행, 메모리 업데이트 및 검증을 통합하는 실행 가능한 워크플로를 구성하여 태스크를 해결하는 방식으로 발전하고 있습니다.#Review#LLM Agents#Workflow Optimization#Agentic Computation Graphs (ACGs)#Static Optimization#Dynamic Optimization#Runtime Adaptation#Evaluation Protocol#Feedback Signals2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Ego2Web: A Web Agent Benchmark Grounded in Egocentric VideosMultimodal AI agents는 online web execution을 포함하는 복잡한 real-world workflow를 점차 자동화하고 있습니다.#Review#Multimodal AI Agents#Web-agent Benchmark#Egocentric Video#Visual Grounding#Online Evaluation#LLM-as-a-Judge#Perception-Action Alignment2026년 3월 24일댓글 수 로딩 중
[논문리뷰] DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models고품질 데이터로 훈련된 Optical Flow 모델들은 블러(blur), 노이즈(noise), 압축 아티팩트(compression artifacts)와 같은 실제 환경의 손상(real-world corruptions)에 직면할 때 성능이 심각하게 저하됩니다.#Review#Optical Flow Estimation#Diffusion Models#Degradation-Aware#Image Restoration#Dense Correspondence#Spatio-Temporal Attention#Hybrid Architecture2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing최근 Multi-modal Large Language Models (MLLMs)의 발전은 일반 목적의 비디오 이해 분야에서 상당한 진전을 가져왔습니다. 그러나 이러한 모델들은 long-form, high-resolution 비디오를 처리하는 데 심각한 어려움을 겪고 있습니다.#Review#Video Understanding#Multi-modal Large Language Models (MLLMs)#Vision Transformers (ViTs)#Autoregressive Gazing#Token Reduction#Multi-scale Patches#High-Resolution Video#Long-Form Video2026년 3월 24일댓글 수 로딩 중