[논문리뷰] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing본 논문은 실제 환경에서 발생하는 스캔, 기울어짐, 왜곡, 화면 촬영, 조명 변화와 같은 물리적 왜곡에 강건한 문서 파싱 모델 을 개발하는 것을 목표로 합니다.#Review#Document Parsing#Visual Language Model (VLM)#Robustness#Multi-task Learning#Layout Analysis#OCR#Real-world Scenarios#Parameter Efficiency2026년 2월 1일댓글 수 로딩 중
[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce본 논문은 기존의 학술적 또는 인공적으로 설계된 에이전트 평가 벤치마크들이 실제 복잡한 전자상거래 환경의 도전을 간과하고 있음을 지적합니다. 이에 대한 해결책으로, 실제 전자상거래 시나리오에서 파운데이션 에이전트의 성능을 종합적으로 평가하기 위한 EcomBench 라는 새로운 벤치마크를 제안합니다.#Review#E-commerce#Foundation Agents#LLM Agents#Benchmark#Agent Evaluation#Tool Use#Multi-step Reasoning#Real-world Scenarios2025년 12월 9일댓글 수 로딩 중
[논문리뷰] NaviTrace: Evaluating Embodied Navigation of Vision-Language Models본 논문은 Vision-Language Models (VLMs)의 실제 환경 내 로봇 내비게이션 능력 을 평가하기 위한 새로운 벤치마크 NaviTrace를 제안합니다.#Review#Vision-Language Models#Embodied Navigation#VQA Benchmark#Robotic Navigation#Semantic-aware Score#Dynamic Time Warping#Real-world Scenarios2025년 11월 9일댓글 수 로딩 중
[논문리뷰] MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook논문은 MARS2 2025 Challenge 를 통해 멀티모달 기계 학습 및 LLM 분야의 발전을 촉진하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Large Language Models (LLMs)#Multimodal Large Language Models (MLLMs)#Visual Grounding#Visual Question Answering#Advertisement Video Analysis#Real-world Scenarios#Challenge Benchmark2025년 9월 18일댓글 수 로딩 중