[논문리뷰] OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs본 논문은 실시간 환경에서 활동하는 멀티모달 에이전트가 단편적인 현재 시점의 정보가 아닌, 시간 흐름에 따른 공간적 구조를 지속적으로 유지하고 추론해야 한다는 도전 과제를 해결하고자 합니다.#Review#Multimodal LLMs#Streaming Spatial Intelligence#Egocentric Video#Hierarchical Benchmark#Spatiotemporal Reasoning#Allocentric Mapping2026년 6월 3일댓글 수 로딩 중
[논문리뷰] Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification본 논문은 최신 LLM 기반 코딩 에이전트들의 복잡한 End-to-End 웹사이트 개발 능력을 체계적으로 평가할 수 있는 표준화된 벤치마크의 부재를 해결하고자 한다.#Review#Multimodal Coding Agents#Website Development#Hierarchical Benchmark#Agent Verification#GUI Agent#VLM-based Judge2026년 4월 1일댓글 수 로딩 중
[논문리뷰] How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities본 연구는 사회적으로 민감한 영역에 배포되는 대규모 언어 모델(LLMs) 의 예측 불가능한 행동(예: 의도 불일치, 일관성 없는 성격 표현)이 초래하는 상당한 위험을 해결하고자 합니다.#Review#Large Language Models (LLMs)#Controllability#Hierarchical Benchmark#Behavioral Granularity#Model Steering#Prompt Engineering#Activation-based Steering2026년 3월 3일댓글 수 로딩 중
[논문리뷰] From Charts to Code: A Hierarchical Benchmark for Multimodal Models기존 차트-코드(chart-to-code) 벤치마크가 단순한 재현 작업에 치중하여 대규모 멀티모달 모델(LMM)의 실제 적용 능력과의 격차를 보였습니다.#Review#Chart-to-Code#Multimodal Models#Hierarchical Benchmark#Chart Understanding#Code Generation#Evaluation Metrics#Benchmarking2025년 10월 23일댓글 수 로딩 중