[논문리뷰] DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories본 논문은 기존의 독립적인 이미지 검색 패러다임이 시각적 히스토리 내의 복잡한 문맥적 의존성을 간과하는 문제를 해결하는 것을 목표로 합니다. 이미지를 자율적인 탐색 작업으로 재구성하여, 모델이 원시 시각적 히스토리에서 다단계 추론을 통해 암묵적인 문맥 단서에 기반한 타겟을 찾아내는 새로운 에이전트 패러다임 을 제시합니다.#Review#Multimodal Agents#Image Retrieval#Context-Aware#Visual Histories#Benchmarking#Vision-Language Models#Agentic AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS경량화된 실시간 TTS 시스템에서 문맥 인지 phonemization의 품질과 추론 속도 간의 근본적인 트레이드오프를 해결하는 것이 목표입니다.#Review#TTS#Phonemization#G2P#Low Latency#Real-time#Service-Oriented Architecture#Context-Aware#Persian Language2025년 12월 10일댓글 수 로딩 중
[논문리뷰] MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs의료 VQA 시스템 훈련에 필요한 대규모, 공개 활용 가능한 고품질 데이터셋의 부족 문제를 해결하는 것입니다. 이 연구는 공개된 생체의학 문헌에서 이미지와 텍스트를 활용하여 고품질의 다중 선택 의료 VQA 문항 을 자동으로 합성하는 투명하고 재현 가능한 파이프라인 을 구축하는 것을 목표로 합니다.#Review#Medical VQA#Large Multimodal Models (LMMs)#Data Synthesis#Generator-Verifier Framework#Rubric-Guided#Reinforcement Learning (RL)#Context-Aware2025년 10월 31일댓글 수 로딩 중