[논문리뷰] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks최근 Diffusion, Autoregressive, 하이브리드 아키텍처의 발전으로 이미지 생성 및 편집 분야는 크게 도약했으나, 기존 벤치마크들은 특정 작업에만 국한되거나 좁은 도메인에 편향되어 실무적인 포괄성이 부족합니다 .#Review#Image Generation#Image Editing#Benchmark#Human Evaluation#Explainable AI#Multimodal Learning2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation현재 텍스트-투-이미지(T2I) 모델이 종종 동질적인 이미지를 생성하며 다양성이 부족하다는 문제를 해결하고자 합니다.#Review#Text-to-Image Models#Diversity Evaluation#Human Evaluation#Attribute-Conditional#Vendi Score#Generative AI#Benchmarking2025년 11월 13일댓글 수 로딩 중
[논문리뷰] Seedream 4.0: Toward Next-generation Multimodal Image Generation본 논문은 텍스트-투-이미지(T2I) 합성, 이미지 편집, 다중 이미지 합성 기능을 단일 프레임워크 내에서 통합하는 효율적이고 고성능의 차세대 멀티모달 이미지 생성 시스템 Seedream 4.0 을 개발하는 것을 목표로 합니다.#Review#Multimodal Image Generation#Diffusion Transformer#VAE#Image Editing#Text-to-Image#Model Acceleration#Human Evaluation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context대규모 언어 모델(LLMs)이 서구 문화에 편향된 훈련 데이터로 인해 문화적 적합성과 지역적 다양성 측면에서 부족하다는 문제를 해결하고자 합니다.#Review#Cultural Adaptation#Large Language Models#Indian Culture#Dataset Creation#CSI#Human Evaluation#LLM Evaluation#Cultural Bias2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis현재 대규모 언어 모델(LLM)이 다단계(multi-hop) 질문 답변 태스크에서 환각(hallucination)을 보이거나 추론에 실패하는 근본적인 원인을 진단하는 것이 주된 목표입니다.#Review#Multi-hop Question Answering#Large Language Models#Reasoning Errors#Error Taxonomy#Human Evaluation#Automated Evaluation#Overthinking2025년 8월 8일댓글 수 로딩 중