[논문리뷰] MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via VerificationarXiv에 게시된 'MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification' 논문에 대한 자세한 리뷰입니다.#Review#Research Agents#Long-Horizon Reasoning#Verification#Agentic LLM#Multi-Step Problem Solving#Reinforcement Learning2026년 3월 17일댓글 수 로딩 중
[논문리뷰] DREAM: Deep Research Evaluation with Agentic MetricsarXiv에 게시된 'DREAM: Deep Research Evaluation with Agentic Metrics' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research Evaluation#Agentic Evaluation#LLM Evaluation#Capability Parity#Factuality#Temporal Validity#Reasoning Quality#Research Agents#Mirage of Synthesis2026년 2월 24일댓글 수 로딩 중
[논문리뷰] BABE: Biology Arena BEnchmarkarXiv에 게시된 'BABE: Biology Arena BEnchmark' 논문에 대한 자세한 리뷰입니다.#Review#Biology Benchmark#Large Language Models#Experimental Reasoning#Causal Inference#Cross-Scale Inference#Multimodal AI#Scientific Reasoning#Research Agents2026년 2월 5일댓글 수 로딩 중
[논문리뷰] MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research AgentsSamiul Alam이 arXiv에 게시한 'MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Deep Research#Research Agents#Benchmark#Evaluation Framework#Retrieval-Augmented Generation#Large Multimodal Models#Visual Grounding#Citation Analysis2026년 1월 21일댓글 수 로딩 중
[논문리뷰] DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded TasksJiaxuan Lu이 arXiv에 게시한 'DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks' 논문에 대한 자세한 리뷰입니다.#Review#LLM Evaluation#Research Agents#Benchmark#Multi-Agent System#Seminar-Grounded Tasks#Data Leakage Prevention#Ill-Structured Problems2025년 9월 5일댓글 수 로딩 중