[논문리뷰] CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing기존의 GUI 에이전트는 웹 탐색이나 단순 OS 작업에서는 상당한 진전을 보였으나, 정교한 미디어 후반 작업과 같은 전문적인 창의적 워크플로우에 대한 대응 능력은 거의 검증되지 않았습니다.#Review#GUI Agents#Media Post-Production#Benchmark#Multimodal#Long-Horizon#Grounding#Vibe Cutting2026년 5월 20일댓글 수 로딩 중
[논문리뷰] WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation본 연구는 기존 에이전트 벤치마크가 현실적인 배포 환경을 제대로 반영하지 못하는 한계를 해결하기 위해 수행되었다.#Review#Agent Evaluation#Long-Horizon#Native-Runtime#Multimodal#Reproducible#Hybrid Verification2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Nexus : An Agentic Framework for Time Series Forecasting본 논문은 기존 TSFM과 LLM 기반 시계열 예측 연구가 가진 구조적 한계를 해결하기 위해 Nexus를 제안한다.#Review#Time Series Forecasting#Large Language Models#Agentic Framework#Multimodal#Reasoning#Temporal Dynamics#Calibration2026년 5월 14일댓글 수 로딩 중
[SGLang] Multimodal 처리 파이프라인 개요: Vision/Audio/Video 통합SGLang의 Multimodal 처리 파이프라인을 분석한다. 이미지, 오디오, 비디오 입력의 전처리, 임베딩 변환, LLM과의 결합 과정을 코드와 함께 살펴본다.#sglang#Multimodal#Vision#Audio#Video#Pipeline2026년 4월 14일댓글 수 로딩 중
[논문리뷰] MolmoWeb: Open Visual Web Agent and Open Data for the Open Web저자들은 Instruction-conditioned visual-language action policy인 MolmoWeb을 제안하며, 이를 학습시키기 위한 MolmoWebMix 데이터셋을 구축하였습니다. MolmoWeb은 Molmo2 아키텍처를 기반으로 하며, 웹 스크린샷과 작업 지시어를 입력받아 즉각적인 브라우저 액션을 출력합니다 .#Review#Web Agents#Multimodal#Vision-Language Models#Open Data#Browser-use#GUI Perception#Instruction-conditioned Policies2026년 4월 9일댓글 수 로딩 중
[sglang] [VLM] 멀티모달 임베딩 최적화: 청크 인식 인코딩과 이미지별 캐싱 도입SGLang의 VLM 추론 성능을 획기적으로 개선하는 코드 변경 분석: 청크 인식 인코딩, 이미지별 캐싱, 지연 장치 전송 도입.#VLM#Optimization#SGLang#Multimodal#Caching#Performance2026년 4월 4일댓글 수 로딩 중
[SGLang] CUDA IPC Pool Handle 캐싱으로 멀티모달 전송 최적화멀티모달 데이터 전송 시 CUDA IPC 핸들을 풀 수준에서 캐싱하여 반복적인 cudaIpcOpenMemHandle 호출을 제거한다#SGLang#CUDA IPC#Multimodal#Performance2026년 3월 29일댓글 수 로딩 중
[sglang] VLM ShmPointerMMData 최적화: multi-pickle 안전성과 deferred unwrapSGLang의 VLM 멀티모달 데이터 공유 메모리 래퍼를 리팩토링하여 multi-pickle 안전성을 확보하고, broadcast 이후 deferred unwrap 패턴을 도입한 분석.#SGLang#VLM#Shared Memory#Multimodal#Optimization#IPC2026년 3월 27일댓글 수 로딩 중
[논문리뷰] MAEB: Massive Audio Embedding Benchmark오디오 임베딩 모델의 평가 프로토콜이 파편화되어 모델 비교 및 의미 있는 진척도 추적에 어려움이 있는 문제를 해결하고자 합니다. 이를 위해 광범위하고 통일된 평가 프레임워크 인 MAEB(Massive Audio Embedding Benchmark) 를 구축하여 범용 오디오 임베딩 모델 개발을 촉진하는 것을 목표로 합니다.#Review#Audio Embedding#Benchmark#Multimodal#Zero-shot Classification#Clustering#Representation Learning#MTEB Ecosystem#Cross-modal Audio-Text#Multilingual Audio2026년 2월 18일댓글 수 로딩 중
[논문리뷰] MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples이 논문은 훈련 데이터셋의 라벨링 없이 산업 제품의 2D 이미지와 3D 포인트 클라우드에서 제로샷(zero-shot) 이상 분류(AC) 및 세분화(AS) 를 수행하는 것을 목표로 합니다.#Review#Zero-Shot Learning#Anomaly Detection#Anomaly Segmentation#Multimodal#Industrial Inspection#Mutual Scoring#Unsupervised Learning#Transformer2025년 11월 13일댓글 수 로딩 중
[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision의료 영상 분야에서 기존의 2D, 3D, 비디오 기반 데이터에 파편화된 모델 아키텍처 및 훈련 전략의 한계를 극복하고, 단일한 시각적 표현 학습 프레임워크를 통해 제로샷 멀티모달 의료 영상 검색 을 가능하게 하는 것이 목표입니다.#Review#Medical Image Retrieval#Self-Supervised Learning#Multimodal#Zero-shot#Foundation Models#MAE#SimDINO#Vision Transformer2025년 9월 3일댓글 수 로딩 중
[논문리뷰] MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data본 논문은 지구 관측(EO) 데이터 의 고유한 다중 모달, 다중 시간, 다중 스펙트럼 특성을 효율적으로 처리하기 위해 Masked Autoencoder (MAE) 프레임워크를 최적화하는 것을 목표로 합니다. 이를 통해 EO 데이터 의 복잡한 이질성을 효과적으로 통합하고 유용하며 다목적의 표현을 학습하고자 합니다.#Review#Self-supervised Learning#Masked Autoencoder#Earth Observation#Multimodal#Multitemporal#Multispectral#Fusion Strategies#Target Normalization2025년 8월 18일댓글 수 로딩 중