[논문리뷰] MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft본 논문은 MLLM 에이전트의 진정한 오픈 월드 탐색 능력을 객관적으로 평가할 수 있는 통제된 프레임워크가 부족하다는 점을 해결하고자 한다. 기존의 게임 기반 벤치마크들은 특정 게임 메커니즘에 지나치게 의존하거나, 상호작용의 범위가 단기적인 작업에 국한되어 에이전트의 장기적인 탐색 능력을 측정하기 어렵다는 한계가 있다 .#Review#MLLM Agents#Open-World Exploration#Minecraft#Embodied AI#Benchmark#Task Synthesis#Multi-Agent Workflow2026년 6월 1일댓글 수 로딩 중
[논문리뷰] A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks본 논문은 기존의 툴 사용 에이전트 벤치마크가 고정된 시나리오에 의존함에 따라 발생하는 심각한 포화(Saturation) 현상과 벤치마크 구축의 높은 노동 집약적 비용 문제를 해결하고자 합니다.#Review#Agent Benchmarks#Tool-use#Task Synthesis#Coverage#Difficulty#Adaptive Contrastive n-gram Model2026년 6월 1일댓글 수 로딩 중
[논문리뷰] REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents본 논문은 대규모 언어 모델(LLM)이 긴 탐색 경로와 많은 상호작용이 필요한 심층 검색 태스크를 수행할 때 겪는 어려움, 특히 고품질 훈련 데이터 부족과 높은 상호작용 비용 문제를 해결하는 것을 목표로 합니다.#Review#Long-Horizon Search#Multimodal LLM#Task Synthesis#Agentic Mid-Training#Reinforcement Learning#Tool-Augmented Agents#Web Search2026년 2월 16일댓글 수 로딩 중
[논문리뷰] WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich SeekingLLM 기반 정보 탐색(IS) 에이전트가 겪는 낮은 탐색 효율성 문제를 해결하는 것이 주된 목표입니다.#Review#LLM-based Agents#Information Seeking#Search Efficiency#Task Synthesis#Reinforcement Learning#Tree-structured Reasoning#WebAgent2025년 10월 29일댓글 수 로딩 중