[sglang] [VLM] 멀티모달 임베딩 최적화: 청크 인식 인코딩과 이미지별 캐싱 도입SGLang의 VLM 추론 성능을 획기적으로 개선하는 코드 변경 분석: 청크 인식 인코딩, 이미지별 캐싱, 지연 장치 전송 도입.#VLM#Optimization#SGLang#Multimodal#Caching#Performance2026년 4월 4일댓글 수 로딩 중
[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World ScenariosShuo Zhang이 arXiv에 게시한 'MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios' 논문에 대한 자세한 리뷰입니다.#Review#Multilingual#Document Parsing#Benchmark#Photographed Documents#VLM#OCR2026년 4월 2일댓글 수 로딩 중
[sglang] Multi-GPU VLM 서빙에서 ShmPointerMMData broadcast race condition 수정Multi-GPU VLM 서빙 시 shared memory 세그먼트의 broadcast race condition을 barrier로 해결#SGLang#VLM#Multi-GPU#Race Condition#Bug Fix2026년 4월 1일댓글 수 로딩 중
[sglang] GB300 Nightly 벤치마크 테스트 스위트 추가SGLang CI에 NVIDIA GB300(Blackwell) 전용 nightly 벤치마크 테스트를 추가하고, NeMo Skills 기반 VLM 평가 인프라를 구축한 분석.#SGLang#CI#Benchmark#GB300#Blackwell#NeMo Skills#VLM2026년 3월 29일댓글 수 로딩 중
[sglang] VLM ShmPointerMMData 최적화: multi-pickle 안전성과 deferred unwrapSGLang의 VLM 멀티모달 데이터 공유 메모리 래퍼를 리팩토링하여 multi-pickle 안전성을 확보하고, broadcast 이후 deferred unwrap 패턴을 도입한 분석.#SGLang#VLM#Shared Memory#Multimodal#Optimization#IPC2026년 3월 27일댓글 수 로딩 중
[논문리뷰] OCR-Agent: Agentic OCR with Capability and Memory ReflectionarXiv에 게시된 'OCR-Agent: Agentic OCR with Capability and Memory Reflection' 논문에 대한 자세한 리뷰입니다.#Review#OCR#VLM#Self-Correction#Agentic AI#Capability Reflection#Memory Reflection#Iterative Refinement#Chain-of-Thought2026년 2월 24일댓글 수 로딩 중
[논문리뷰] On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMsarXiv에 게시된 'On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs' 논문에 대한 자세한 리뷰입니다.#Review#VLM#RL Fine-tuning#Chain-of-Thought#Robustness#Faithfulness#Textual Perturbations#Visual Grounding#Uncertainty Calibration2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic ReasoningarXiv에 게시된 'Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Visual Metaphor Transfer#Conceptual Blending Theory#Schema Grammar#Multi-Agent Framework#Generative AI#VLM#LLM#Creative AI2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Alterbute: Editing Intrinsic Attributes of Objects in ImagesarXiv에 게시된 'Alterbute: Editing Intrinsic Attributes of Objects in Images' 논문에 대한 자세한 리뷰입니다.#Review#Intrinsic Attributes#Object Editing#Diffusion Models#Identity Preservation#Visual Named Entities#Text-to-Image#VLM2026년 1월 15일댓글 수 로딩 중
[논문리뷰] ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image EditingarXiv에 게시된 'ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Image Editing#Reasoning#Chain-of-Thought#Multimodal Generative Models#Reward Modeling#VLM2026년 1월 7일댓글 수 로딩 중
[논문리뷰] PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical IntelligencearXiv에 게시된 'PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Egocentric Data#Physical Intelligence#VLM#Robot Control#Embodied AI#VQA Supervision#Human-Robot Interaction#Zero-shot Transfer2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1arXiv에 게시된 'Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1' 논문에 대한 자세한 리뷰입니다.#Review#Human-Agent Collaboration#Project Page Generation#Multi-Agent System#LLM#VLM#Webpage Automation#PageBench#Scientific Communication#Cost-Effective AI2025년 10월 24일댓글 수 로딩 중
[논문리뷰] FineVision: Open Data Is All You NeedarXiv에 게시된 'FineVision: Open Data Is All You Need' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Datasets#VLM#Data Curation#Data Hygiene#De-duplication#Human-in-the-loop#GUI Automation#Test-set Decontamination2025년 10월 21일댓글 수 로딩 중
[논문리뷰] WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement LearningZhuofan Zong이 arXiv에 게시한 'WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Website Generation#Code Agent#LLM#VLM#Reinforcement Learning#Multi-Level Feedback#GUI Agent#Step-GRPO2025년 9월 29일댓글 수 로딩 중
[논문리뷰] RewardDance: Reward Scaling in Visual GenerationLiang Li이 arXiv에 게시한 'RewardDance: Reward Scaling in Visual Generation' 논문에 대한 자세한 리뷰입니다.#Review#Reward Model#Visual Generation#RLHF#VLM#Reward Scaling#Reward Hacking#Generative Paradigm#Context Scaling#Text-to-Image#Text-to-Video2025년 9월 11일댓글 수 로딩 중