[논문리뷰] Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation본 연구는 대규모 언어 모델(LLM)이 Deep Research 분야에서 사실 기반의 긴 리포트를 작성할 때 발생하는 불투명성과 시각 자료 활용의 한계를 해결하고자 합니다.#Review#Multi-Agent System#Multimodal Deep Research#Verifiable Generation#Test-Time Scaling#Visual Working Memory#Report Generation2026년 5월 28일댓글 수 로딩 중
[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?본 논문은 기존의 심층 연구 에이전트(DRA) 벤치마크가 질문 응답(QA) 또는 폐쇄형 작업 에 치중하여 종합적인 보고서 생성 능력을 제대로 평가하지 못하는 한계를 지적합니다. 또한, 현재의 개방형 벤치마크는 LLM 기반 샘플링 이나 주관적인 평가 방식 으로 인해 실제 사용자 요구사항과 동떨어져 있음을 문제로 삼습니다.#Review#Deep Research Agents#Evaluation Benchmark#Failure Taxonomy#Report Generation#Information Retrieval#Reasoning Resilience#Content Fabrication#AI Agents2025년 12월 1일댓글 수 로딩 중
[논문리뷰] EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence본 연구는 의사 전문성에 크게 의존하고 주관적이며 비효율적인 기존 초음파 진단의 한계를 극복하고, 일반적인 VLM(Vision-Language Model) 의 초음파 의료 도메인 지식 부족 문제를 해결하고자 합니다.#Review#Vision-Language Models#Ultrasound Imaging#Medical Diagnosis#Mixture-of-Experts (MoE)#Instruction Tuning#Multimodal AI#Report Generation#VQA2025년 9월 19일댓글 수 로딩 중
[논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks본 논문은 대규모 언어 모델(LLM) 기반의 심층 연구(Deep Research) 에이전트가 생성하는 연구 보고서의 내용 품질을 체계적으로 평가하기 위한 벤치마크인 ReportBench 를 제안합니다.#Review#Deep Research Agents#LLM Evaluation#Academic Survey#Factual Accuracy#Citation Verification#Report Generation#Benchmark#Hallucination2025년 8월 27일댓글 수 로딩 중