본문으로 건너뛰기

#Interactive Benchmark

3개의 포스트

[논문리뷰] SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

댓글 수 로딩 중

[논문리뷰] Advancing Creative Physical Intelligence in Large Multimodal Models

댓글 수 로딩 중

[논문리뷰] LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

댓글 수 로딩 중