#Multi-Turn

1개의 포스트

[논문리뷰] LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

본 논문은 대규모 언어 모델(LLM) 에이전트가 복잡한 소프트웨어 개발 작업을 수행할 때 필요한 실세계 역량을 평가하기 위한 포괄적인 벤치마크, LoCoBench-Agent 를 제안합니다.

#Review #LLM Agents #Software Engineering #Long-Context #Interactive Benchmark #Tool Usage #Memory Management #Bias-Free Evaluation #Multi-Turn

2025년 11월 17일