#Hierarchical Benchmark

4개의 포스트

[논문리뷰] OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs

본 논문은 실시간 환경에서 활동하는 멀티모달 에이전트가 단편적인 현재 시점의 정보가 아닌, 시간 흐름에 따른 공간적 구조를 지속적으로 유지하고 추론해야 한다는 도전 과제를 해결하고자 합니다.

#Review #Multimodal LLMs #Streaming Spatial Intelligence #Egocentric Video #Hierarchical Benchmark #Spatiotemporal Reasoning #Allocentric Mapping

2026년 6월 3일

[논문리뷰] Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

본 논문은 최신 LLM 기반 코딩 에이전트들의 복잡한 End-to-End 웹사이트 개발 능력을 체계적으로 평가할 수 있는 표준화된 벤치마크의 부재를 해결하고자 한다.

#Review #Multimodal Coding Agents #Website Development #Hierarchical Benchmark #Agent Verification #GUI Agent #VLM-based Judge

2026년 4월 1일

[논문리뷰] How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

본 연구는 사회적으로 민감한 영역에 배포되는 대규모 언어 모델(LLMs) 의 예측 불가능한 행동(예: 의도 불일치, 일관성 없는 성격 표현)이 초래하는 상당한 위험을 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Controllability #Hierarchical Benchmark #Behavioral Granularity #Model Steering #Prompt Engineering #Activation-based Steering

2026년 3월 3일

[논문리뷰] From Charts to Code: A Hierarchical Benchmark for Multimodal Models

기존 차트-코드(chart-to-code) 벤치마크가 단순한 재현 작업에 치중하여 대규모 멀티모달 모델(LMM)의 실제 적용 능력과의 격차를 보였습니다.

#Review #Chart-to-Code #Multimodal Models #Hierarchical Benchmark #Chart Understanding #Code Generation #Evaluation Metrics #Benchmarking

2025년 10월 23일