[논문리뷰] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM AgentsHuayu Sha이 arXiv에 게시한 'SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Tool-use#Scientific Reasoning#Benchmarking#Interactive Environment#Data Synthesis#Error Recovery#Multi-step Tasks2026년 2월 15일댓글 수 로딩 중
[논문리뷰] CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World UncertaintyarXiv에 게시된 'CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Benchmarks#Tool-use#Consistency#Uncertainty Handling#Hallucination#In-car Assistant#Policy Adherence2026년 2월 5일댓글 수 로딩 중
[논문리뷰] DocDancer: Towards Agentic Document-Grounded Information SeekingarXiv에 게시된 'DocDancer: Towards Agentic Document-Grounded Information Seeking' 논문에 대한 자세한 리뷰입니다.#Review#Agentic AI#Document Question Answering#Tool-use#Information Seeking#Synthetic Data Generation#Long-context Understanding#Multimodal Documents2026년 1월 8일댓글 수 로딩 중
[논문리뷰] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?Yaojie Lu이 arXiv에 게시한 'LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agent#Tool-use#MCP#Benchmark#Large-scale#Real-world tasks#Automated Evaluation#Meta-tool-learning2025년 8월 6일댓글 수 로딩 중