[논문리뷰] UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture본 연구는 Multimodal Large Language Models (MLLMs) 이 이미지의 미학, 품질, 구조, 텍스처와 같은 지각 수준의 특성을 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Perceptual Understanding#Image Aesthetics#Image Quality#Image Structure#Image Texture#MLLM Benchmark#Visual Question Answering#Reward Model2025년 12월 28일댓글 수 로딩 중
[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark본 연구는 오픈소스 Text-to-Image (T2I) 모델의 추론 능력 발전을 저해하는 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재를 해결하는 것을 목표로 합니다. 이를 통해 선도적인 클로즈드소스 시스템과의 성능 격차를 해소하고, 복잡한 지시 사항을 따르는 T2I 모델의 개발 및 평가를 촉진하고자 합니다.#Review#Text-to-Image Generation#Reasoning Dataset#Benchmark#Generation Chain-of-Thought#Vision-Language Model#Image Aesthetics#Prompt Alignment2025년 9월 12일댓글 수 로딩 중