[논문리뷰] OpenSTBench: Beyond Semantic Evaluation for Speech Translation본 논문은 현대의 음성 번역 시스템이 S2TT, S2ST, 오프라인, 스트리밍 환경 등 다양한 시나리오로 확장됨에 따라 발생하는 평가의 불일치 문제를 해결하고자 한다.#Review#Speech Translation#Evaluation Framework#S2ST#S2TT#Streaming#Multidimensional#Temporal Quality2026년 6월 3일댓글 수 로딩 중
[논문리뷰] EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation본 연구는 generative video foundation models의 빠른 발전으로 professional-grade cinematic synthesis에 대한 수요가 증가함에 따라, Reinforcement Learning (RL) 및 agentic workflows로의 전환에 필요한 신뢰할 수 있는 평가의 bottleneck 문제를 해결하고자 한다.#Review#Video Generation#Benchmarking#Cinematic Quality#VLM#Chain-of-Thought#Human-Machine Alignment#Evaluation Framework#Reinforcement Learning2026년 5월 26일댓글 수 로딩 중
[논문리뷰] AutoResearch AI: Towards AI-Powered Research Automation for Scientific Discovery본 연구는 AI가 과학 연구의 개별 작업을 지원하는 task-level AI for Science를 넘어 workflow-level research automation으로 전환되는 현상 속에서 발생하는 분야의 파편화 문제를 해결하고자 한다.#Review#AutoResearch#AI for Science#Workflow Automation#Scientific Discovery#Autonomy Spectrum#Human-AI Collaboration#Evaluation Framework#Scientific Credibility2026년 5월 25일댓글 수 로딩 중
[논문리뷰] MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation본 논문은 현대의 영상 생성 기술이 단일 샷(single-shot)에서 다중 샷(multi-shot) 이야기 구조로 진화함에 따라 발생하는 모델 평가의 한계를 극복하고자 한다.#Review#Multi-Shot Audio-Video Generation#Benchmark#Evaluation Framework#Adaptive Hybrid Evaluation#Cinematic Language2026년 5월 19일댓글 수 로딩 중
[논문리뷰] MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents본 논문은 기존 연구 에이전트 벤치마크들이 텍스트 전용 또는 짧은 형태의 멀티모달 질의응답에 초점을 맞춰, 멀티모달 증거를 활용한 종단 간 보고서 생성 능력을 평가하는 데 한계가 있음을 지적합니다.#Review#Multimodal Deep Research#Research Agents#Benchmark#Evaluation Framework#Retrieval-Augmented Generation#Large Multimodal Models#Visual Grounding#Citation Analysis2026년 1월 21일댓글 수 로딩 중
[논문리뷰] Memorization in 3D Shape Generation: An Empirical Study3D 생성 모델이 훈련 데이터를 기억하는 현상이 데이터 유출 및 생성 결과의 다양성 저하를 초래할 수 있으나, 이에 대한 체계적인 연구가 부족했습니다.#Review#3D Shape Generation#Memorization#Generative Models#Diffusion Models#Evaluation Framework#Generalization#Data Augmentation2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward본 논문은 통합 멀티모달 모델(UMMs)에서 '이해' 능력이 '생성' 과정에 실제로 정보를 제공하고 안내하는지 여부를 조사합니다.#Review#Unified Multimodal Models#Understanding-Generation Gap#Reasoning#Knowledge Transfer#Chain-of-Thought#Self-Training#Synthetic Data#Evaluation Framework2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Rethinking Saliency Maps: A Cognitive Human Aligned Taxonomy and Evaluation Framework for Explanations본 연구는 심층 학습 모델의 시각적 설명 기법인 Saliency Map 이 명확한 목적과 사용자 질의에 대한 정렬이 부족하여 평가 및 실용적 효용성이 저해되는 문제를 해결하는 것을 목표로 합니다.#Review#Saliency Maps#Explainable AI (XAI)#Taxonomy#Evaluation Framework#Faithfulness Metrics#Contrastive Explanations#Granularity2025년 11월 23일댓글 수 로딩 중
[논문리뷰] BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback본 논문은 검색 증강 대규모 언어 모델(LLMs)의 개인화 능력 평가에 대한 체계적인 벤치마크 부재 문제를 해결하고자 합니다. 사용자의 다양한 정보 요구와 선호하는 전달 방식을 LLM이 얼마나 효과적으로 반영하는지 진단하고 평가하기 위한 사실적이고 진단적인 벤치마크 인 BESPOKE 를 제안하는 것을 목표로 합니다.#Review#Search-Augmented LLMs#Personalization#Benchmark#Diagnostic Feedback#User History#Evaluation Framework#RAG2025년 9월 26일댓글 수 로딩 중
[논문리뷰] VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions본 논문은 음성 언어 모델(SLM)이 음성 지시에 따라 음성 스타일(음색, 운율, 페르소나 등)을 조절하는 능력, 즉 음성 스타일 적응(VSA) 에 대한 연구 부족 문제를 해결하고자 합니다.#Review#Voice Style Adaptation#Spoken Language Models#Benchmark#LALM-as-a-Judge#Speech Generation#Multilingual#Evaluation Framework2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability본 논문은 대규모 멀티모달 모델(LMMs)이 결함 있는 입력을 수동적으로 수용하여 잘못된 추론을 유발하는 문제를 해결하고자 합니다.#Review#Large Multimodal Models#Input Scrutiny#Error Detection#Faulty Inputs#Evaluation Framework#Modality Preference#Cross-Modal Inconsistency2025년 8월 8일댓글 수 로딩 중
[논문리뷰] ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?이 논문은 AI 에이전트, 특히 대규모 언어 모델(LLM) 기반 에이전트가 과학 연구를 수행하는 능력을 평가하는 것을 목표로 합니다.#Review#AI Agents#Astrophysics Research#Reproducibility Benchmark#Large Language Models#Scientific Workflow#Code Execution#Evaluation Framework2025년 10월 29일댓글 수 로딩 중
[논문리뷰] StatEval: A Comprehensive Benchmark for Large Language Models in Statistics본 논문은 수학적 및 논리적 추론에 비해 통계 분야 에서 벤치마킹 노력이 부족하다는 점을 지적하며, 이 간극을 해소하고자 합니다. 통계학 전반의 깊이와 난이도를 포괄하는 최초의 포괄적 벤치마크인 StatEval 을 도입하여 LLM의 통계적 추론 능력과 이론적 증명 역량을 엄격하게 평가하는 것을 목표로 합니다.#Review#Statistical Reasoning#LLM Benchmark#Statistics Education#Proof Verification#Multi-agent Pipeline#Automated Extraction#Evaluation Framework2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods현재 멀티모달 대규모 언어 모델(MLLMs) 의 시각 토큰 압축 방법론 평가에 사용되는 벤치마크들이 압축 기술 평가에 부적합하여, 단순 이미지 다운샘플링 이 종종 고급 압축 방법보다 우수한 성능을 보이는 잘못된 결과를 초래하는 문제를 해결하는 것을 목표로 합니다.#Review#Visual Token Compression#MLLMs#Evaluation Framework#Benchmarking#Downsampling#Data Filtering#Model Efficiency2025년 10월 9일댓글 수 로딩 중
[논문리뷰] AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems본 논문은 대규모 언어 모델(LLM)이 사전 학습된 매개변수 지식 만을 사용하여 AI 연구 문제를 자율적으로 해결할 수 있는지 평가하는 것을 목표로 합니다. 이는 LLM의 성공이 단순한 암기나 정교한 패턴 매칭을 넘어선 진정한 개념적 추론 능력 을 반영하는지 밝히기 위함입니다.#Review#LLM#Scientific Problem Solving#AI Research#Iterative Refinement#Autonomous Agents#Generative AI#Evaluation Framework#Problem Extraction2025년 10월 8일댓글 수 로딩 중
[논문리뷰] HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition본 연구는 한국어-영어 코드 스위칭(CS) 음성 인식(ASR) 분야의 심각한 연구 부족을 해결하고, 다국어 ASR 모델의 정밀한 평가를 위한 최초의 공개적인 계층적 평가 프레임워크인 HiKE 를 제시하는 것을 목표로 합니다.#Review#Code-Switching#Speech Recognition#Korean-English ASR#Evaluation Framework#Multilingual ASR#Loanword Processing#Fine-tuning#Hierarchical Labeling2025년 10월 7일댓글 수 로딩 중
[논문리뷰] SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?본 논문은 학술 조사 논문 작성에 대한 대규모 언어 모델(LLM) 및 LLM 에이전트의 역량 을 엄격하게 평가하기 위해 독자 요구사항에 부합하는 벤치마크 의 부재를 해결합니다.#Review#LLM#LLM Agents#Academic Survey Generation#Evaluation Framework#Benchmark#Quiz-driven Evaluation#Content Quality Metrics2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation본 논문은 기존 비디오 생성 모델 및 벤치마크가 전문적인 비디오 생성의 복잡성과 요구사항 을 충분히 반영하지 못하는 문제를 해결하고자 합니다.#Review#Video Generation#Evaluation Framework#Cinematic Control#Taxonomy#Human Annotation#Vision-Language Models#Text-to-Video2025년 10월 1일댓글 수 로딩 중