#Benchmark Evaluation

6개의 포스트

[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

본 논문은 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 7개 최신 AI 모델의 안전성을 종합적이고 다차원적으로 평가하는 것을 목표로 합니다.

#Review #AI Safety #Large Language Models #Multimodal LLMs #Benchmark Evaluation #Adversarial Robustness #Multilingual Evaluation #Regulatory Compliance #Image Generation Safety

2026년 1월 15일

[논문리뷰] Scaling Spatial Intelligence with Multimodal Foundation Models

본 연구는 최신 멀티모달 파운데이션 모델(Multimodal Foundation Models, MLLMs)이 가진 공간 지능(spatial intelligence)의 부족함을 해결하고, SenseNova-SI 계열 모델을 통해 대규모 데이터 스케일링을 통해 공간 지능을 효과적으로 육성하는 방법을 탐구하는 것을 목표로 합니다.

#Review #Spatial Intelligence #Multimodal Foundation Models #Data Scaling #Perspective-taking #Visual Question Answering #Emergent Capabilities #Embodied AI #Benchmark Evaluation

2025년 11월 20일

[논문리뷰] When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

본 논문은 LLM Judge 벤치마크 설계에서 발생하는 근본적인 결함이 평가 유효성을 침묵적으로 저해 하는 문제를 다룹니다. 특히, 명확한 목표와 검증 가능한 구성 없이 고신뢰도처럼 보이는 랭킹이 실제로는 대부분 노이즈 일 수 있음을 진단하고, 이를 해결하기 위한 진단 메커니즘과 개선 원칙을 제시하는 것을 목표로 합니다.

#Review #LLM Judge #Benchmark Evaluation #Validity #Reliability #Psychometrics #Factor Analysis #Schema Adherence #ELO Ranking

2025년 9월 26일

[논문리뷰] Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

이 연구는 최신 MLLM(Multi-modal Large Language Model) , 특히 GPT-5 가 인공 일반 지능(AGI)의 핵심 역량인 공간 이해 및 추론 능력을 얼마나 달성했는지 실증적으로 평가하는 것을 목표로 합니다.

#Review #Spatial Intelligence #Multimodal LLMs #Benchmark Evaluation #GPT-5 #Cognitive AI #AGI

2025년 8월 19일

[논문리뷰] Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

이 논문은 현재 문서 검색 증강 생성(RAG) 시스템 의 평가 벤치마크가 실제 세계의 복잡성과 한계를 제대로 반영하지 못하는 문제점을 해결하고자 합니다.

#Review #Retrieval-Augmented Generation #Multimodal LLMs #Benchmark Evaluation #Document Understanding #Multi-hop Reasoning #Information Retrieval #Evaluation Dataset

2025년 8월 8일

[논문리뷰] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

이 논문은 기존 벤치마크가 대규모 추론 모델(LRMs)의 복잡하고 상호 의존적인 장기 추론 능력을 충분히 평가하지 못하는 문제를 해결하고자 합니다. 특히, LRMs가 다단계 추론 시나리오에서 얼마나 깊고 넓게 추론할 수 있는지 그 한계를 평가하고 향상시키는 것을 목표로 합니다.

#Review #Long-Horizon Reasoning #Query Composition #Large Reasoning Models #Reinforcement Learning #Benchmark Evaluation #Thinking Budget #Performance Degradation #Chain-of-Thought

2025년 10월 13일