#Multi-Step Tasks

2개의 포스트

[논문리뷰] 'What Are You Doing?': Effects of Intermediate Feedback from Agentic LLM In-Car Assistants During Multi-Step Processing

본 논문은 LLM 기반 에이전트 어시스턴트 가 다단계 작업을 수행할 때 진행 상황과 추론을 어떻게 효과적으로 전달해야 하는지에 대한 문제를 다룹니다.

#Review #Agentic LLM #In-Car Assistants #Human-AI Interaction #Feedback Mechanisms #User Experience #Multi-Step Tasks #Automotive AI #Speech Interfaces

2026년 2월 19일

[논문리뷰] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

이 논문은 기존 도구 사용 벤치마크의 한계를 극복하고, LLM 에이전트 가 실제와 같은 복잡한 다단계 작업을 수행할 수 있도록 평가하는 대규모 벤치마크인 MCP-Bench 를 소개합니다. 특히 퍼지 지침 하에서의 도구 검색, 교차 도구 조정 , 정확한 매개변수 제어 , 장기 계획/추론 능력을 평가하는 데 중점을 둡니다.

#Review #LLM Agents #Tool Use #Benchmarking #Model Context Protocol (MCP)#Cross-Domain Orchestration #Fuzzy Instructions #Multi-Step Tasks #Real-World Scenarios

2025년 8월 29일