[논문리뷰] Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs본 논문은 Multimodal Large Language Models (MLLMs) 가 텍스트를 이미지 형태로 처리할 때 발생하는 '모달리티 갭(modality gap)'을 체계적으로 진단하고 해결하는 것을 목표로 합니다.#Review#Multimodal LLMs#Modality Gap#Visual Text Understanding#Error Analysis#Self-Distillation#Text-to-Image Conversion#Reasoning Collapse2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Lost in Stories: Consistency Bugs in Long Story Generation by LLMs대규모 언어 모델(LLM)이 수만 단어에 달하는 장편 서사를 생성할 수 있게 되었지만, 설정된 사실, 캐릭터 특성, 세계 규칙 등 전반적인 일관성을 유지하는 데 실패하는 문제를 해결하는 것이 목표입니다. 기존 스토리 생성 벤치마크가 플롯 품질과 유창성에만 초점을 맞추어 일관성 오류가 간과되는 한계를 극복하고자 합니다.#Review#Large Language Models (LLMs)#Story Generation#Narrative Consistency#Benchmark#Automated Evaluation#Error Analysis#Long-Form Text Generation#Consistency Error Density (CED)2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities본 논문은 대규모 언어 모델(LLM)이 새롭고 복잡한 과학 정보에 대해 추론하는 능력의 불확실성을 해결하는 것을 목표로 합니다.#Review#Retrieval-Augmented Generation#Large Language Models#Reasoning#Benchmark#Deep Search#Error Analysis#Scientific Problem Solving#Context Understanding2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces본 논문은 기존 AI 에이전트 벤치마크가 실제 작업 시나리오를 충분히 반영하지 못하거나 최신 모델의 성능을 측정하기에 난이도가 부족하다는 문제점을 해결하고자 합니다.#Review#AI Agents#LLM Evaluation#Benchmarking#Command Line Interface#Software Engineering#Realistic Tasks#Error Analysis2026년 1월 22일댓글 수 로딩 중
[논문리뷰] MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity기존 멀티모달 벤치마크들이 텍스트 기반 추론을 과도하게 강조하거나 시각 중심의 인지적 행동을 체계적으로 포착하지 못하여 MLLM의 인지 능력을 불충분하게 평가하는 한계를 해결하는 것을 목표로 합니다. 시각 기반 추론에 중점을 둔 새로운 벤치마크 MME-CC 를 도입하여 MLLM의 인지 능력을 심층적으로 평가하고자 합니다.#Review#Multimodal LLMs#Benchmark#Cognitive Capacity#Visual Reasoning#MLLM Evaluation#Error Analysis#Chain-of-Thought2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries본 논문은 AI 에이전트가 현실 세계와 상호작용하고 복잡한 작업을 해결하는 데 필수적인 도구 호출(tool calling) 기능의 평가에 중점을 둡니다.#Review#AI Agents#Tool Use#Model Context Protocol (MCP)#Benchmarking#Large Language Models (LLMs)#Real-world Tasks#Evaluation#Error Analysis2025년 8월 22일댓글 수 로딩 중
[논문리뷰] RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems본 연구는 대규모 언어 모델(LLM) 기반 에이전트형 검색 증강 생성(RAG) 시스템의 한계, 특히 복잡한 다단계 질문 처리 능력 및 중간 추론 능력 부족 문제를 해결하고자 합니다.#Review#Large Language Models#Retrieval Augmented Generation#Agentic Systems#Benchmarking#Intermediate Tasks#Error Analysis#LLM Evaluation2025년 10월 17일댓글 수 로딩 중
[논문리뷰] VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes현재 시각 언어 모델(VLM) 벤치마크가 밀집된 고해상도 장면 에서의 시각적 이해 능력을 과대평가하고 있다는 문제 인식을 바탕으로, 모델의 세밀한 시각적 이해 능력 과 복잡한 추론 능력 을 정확하게 평가할 수 있는 새로운 VQA 벤치마크를 제시하는 것이 목표입니다.#Review#Visual Question Answering#Multimodal Models#Dense Scenes#Fine-Grained Perception#Benchmark#Error Analysis#Counting#OCR2025년 10월 1일댓글 수 로딩 중