[논문리뷰] GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation본 연구는 기존 벤치마크에서 MLLM(Multimodal Large Language Models)이 달성한 높은 성능에도 불구하고, 인간과 유사한 시각적 접지(visual grounding) 능력 을 실제 복잡한 시나리오에서 갖추고 있는지 근본적인 질문을 던집니다.#Review#Visual Grounding#MLLMs#Benchmark#Multi-Dimensional Evaluation#Rejection Capability#Test-Time Scaling#Data Mixture Training2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing본 논문은 최신 Latent Diffusion Models (LDMs)가 주로 픽셀 수준 재구성에 최적화된 저수준 Variational Autoencoder (VAE) 잠재 공간 을 사용하는 한계를 지적합니다.#Review#Text-to-Image Generation#Image Editing#Representation Encoders#Latent Diffusion Models#Variational Autoencoder (VAE)#Semantic Reconstruction#Off-manifold Latents#DINOv22025년 12월 21일댓글 수 로딩 중
[논문리뷰] Are We on the Right Way to Assessing LLM-as-a-Judge?본 논문은 현재 LLM-as-a-Judge 평가 방법론이 인간 주석에 과도하게 의존하여 발생하는 편향, 불일치성, 확장성 문제를 해결하고자 합니다.#Review#LLM-as-a-Judge#Evaluation Metrics#Consistency#Robustness#Positional Bias#Transitivity#Situational Preference#Multi-agent Systems2025년 12월 21일댓글 수 로딩 중
[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges본 논문은 급변하는 Vision-Language-Action (VLA) 모델 분야에 대한 명확하고 구조화된 가이드를 제공하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied Intelligence#Robotics#Foundation Models#Multi-modal Learning#Reinforcement Learning#Sim-to-Real Transfer#Human-Robot Interaction2025년 12월 21일댓글 수 로딩 중
[논문리뷰] 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation본 논문은 기존 MLLM이 3D 구조와 시간적 역학(4D)을 추론하는 능력이 부족하며, 특히 4D 인지 및 시간적 이해 가 약하다는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#4D Understanding#Perceptual Distillation#Region-level VQA#Video Question Answering#Temporal Perception#Depth Perception2025년 12월 21일댓글 수 로딩 중
[논문리뷰] 3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework본 논문은 단일 2D 이미지로부터 시각 효과(VFX) 및 게임 개발에 즉시 활용 가능한, 수정 가능한 생산 준비 완료(production-ready) 3D 텍스처 메시 장면 을 재구성하는 것을 목표로 합니다.#Review#3D Reconstruction#Generative AI#Indoor Scenes#Compositional Framework#Differentiable Rendering#Image-to-3D#VFX#Game Development2025년 12월 21일댓글 수 로딩 중
[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks기존 GUI 그라운딩 벤치마크가 데이터 부족, 좁은 도메인 커버리지, 단일 플랫폼 집중, 그리고 과도한 전문 지식 요구 등의 한계를 가지고 있음을 지적합니다.#Review#GUI Grounding#Multi-Platform#Benchmark#MLLM#Hierarchical Evaluation#Human-in-the-Loop Annotation#GUI Agents#Multilingual Dataset2025년 12월 18일댓글 수 로딩 중
[논문리뷰] The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text본 논문은 기존 텍스트 전용 또는 궤적 기반 이미지-투-비디오(I2V) 생성 모델의 한계를 극복하고, 더욱 풍부하고 사용자 지향적인 '프롬프트 가능한 월드 이벤트' 시뮬레이션을 가능하게 하는 것을 목표로 합니다.#Review#World Models#Video Generation#Multimodal Control#Trajectory Guidance#Reference Images#Promptable Events#Cross-Attention#Diffusion Models2025년 12월 18일댓글 수 로딩 중
[논문리뷰] StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors본 논문은 스테레오 비디오 변환 시 기존의 다단계 “Depth-Warp-Inpaint” (DWI) 파이프라인이 겪는 오류 전파, 깊이 모호성, 그리고 병렬 및 수렴 스테레오 형식 간의 불일치 문제를 해결하고자 합니다.#Review#Monocular-to-Stereo Conversion#Video Generation#Diffusion Models#Feed-Forward Architecture#Domain Switcher#Cycle Consistency#Unified Dataset#Depth Ambiguity2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model본 논문은 오디오와 비디오를 통합적으로 생성하는 기반 모델(foundation model) 인 Seedance 1.5 pro를 소개합니다.#Review#Audio-Visual Generation#Diffusion Transformer#Multimodal AI#Speech Synchronization#Video Generation#Reinforcement Learning from Human Feedback#Inference Acceleration2025년 12월 18일댓글 수 로딩 중
[논문리뷰] RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing본 논문은 기존 지시 기반 이미지 편집 모델들이 Instruction-Visual Complexity (IV-Complexity) 시나리오(복잡한 시각적 문맥, 모호한 지시, 다중 객체 참조, 세계 지식 및 인과적 추론 필요)에서 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#Image Editing#Vision-Language Models#Diffusion Models#Region-aligned Guidance#Reinforcement Learning#Instruction-Visual Complexity#Attention Mechanism2025년 12월 18일댓글 수 로딩 중
[논문리뷰] REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion본 논문은 최신 이미지 생성 모델인 Latent Diffusion Models (LDMs) 의 고질적인 문제인 느린 의미론적 정보 학습 및 샘플 품질 제한을 해결하고자 합니다.#Review#Latent Diffusion Models#Vision Foundation Models#Semantic Compression#Global-Local Semantics#Image Generation#Representation Entanglement#Transformer Architecture2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Next-Embedding Prediction Makes Strong Vision Learners본 논문은 자연어 처리 분야의 생성적 사전 훈련(generative pretraining) 성공 사례에서 영감을 받아, 다음 임베딩 예측(next-embedding prediction) 을 통해 비전 태스크에서 강력한 자기 지도 학습(self-supervised learning) 모델을 구축하는 것을 목표로 합니다.#Review#Self-supervised Learning#Generative Pretraining#Vision Transformer#Next-Embedding Prediction#Autoregressive Model#Image Classification#Semantic Segmentation#Causal Masking2025년 12월 18일댓글 수 로딩 중
[논문리뷰] N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models본 연구는 기존 멀티모달 모델이 2D 이미지에 의존하여 3D 공간 이해 능력이 부족하다는 한계를 해결하는 것을 목표로 합니다.#Review#3D Grounding#Spatial Reasoning#Vision-Language Models#Depth Estimation#3D Object Detection#Chain-of-Thought#Data Generation#Multimodal AI2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image본 논문은 이미지와 텍스트가 혼합된 시퀀스를 처리하는 옴니 모델(Omni Models)을 위한 보상 모델(Reward Models, RMs)의 부족한 평가 프레임워크를 해결하고자 합니다.#Review#Reward Models#Multimodal LLMs#Benchmark#Text-to-Image Generation#Image Editing#Interleaved Generation#Multimodal Reasoning#MLLM-as-a-judge2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Kling-Omni Technical Report논문은 단편적인 비디오 생성, 편집, 추론 태스크들을 통합하여 멀티모달 시각 언어(MVL) 입력 으로부터 고품질 비디오를 직접 합성하는 범용 생성 프레임워크인 Kling-Omni 를 개발하는 것을 목표로 합니다.#Review#Video Generation#Multimodal Visual Language#Generative AI#Video Editing#Reasoning-enhanced Generation#Diffusion Transformer#Multi-modal World Simulators2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language본 논문은 시계열 데이터로부터 통찰력을 추출하는 데 필요한 깊은 도메인 전문성과 시간 소모적인 과정을 해결하고자 합니다.#Review#Time Series Analysis#Multimodal Language Models#Natural Language Generation#Dataset Creation#Instruction Tuning#GPT-4#LLaVA#Cross-Domain Alignment2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs이 논문은 음성 양식이 LLM(Large Language Model) 에 직접 통합될 때 음성-텍스트 번역(ST) 품질이 향상되는지, 아니면 기존의 계단식(cascaded) 또는 직접(direct) 모델 이 여전히 더 효과적인 솔루션인지 평가합니다.#Review#Speech-to-Text Translation#Multimodal LLMs#Speech Foundation Models#Cascaded Systems#Benchmarking#Speech Modality Integration#Robustness#Evaluation Metrics2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Generative Refocusing: Flexible Defocus Control from a Single Image본 논문은 단일 이미지로부터 촬영 후 유연한 초점 및 심도 제어를 가능하게 하는 생성적 리포커싱(Generative Refocusing) 시스템을 개발하는 것을 목표로 합니다.#Review#Generative AI#Image Refocusing#Defocus Deblurring#Bokeh Synthesis#Depth of Field Control#Semi-Supervised Learning#Diffusion Models#Aperture Shape Control2025년 12월 18일댓글 수 로딩 중
[논문리뷰] FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering본 논문은 인터랙티브 애플리케이션을 위한 G-buffer 조건부 신경망 포워드 프레임 렌더링에서 시간적 일관성 을 유지하는 동시에 사실적인 이미지를 프레임별로 자동회귀적으로 생성 하는 문제를 해결하는 것을 목표로 합니다. 기존 단일 이미지 모델의 시간적 불일치 와 비디오 모델의 높은 연산 비용 문제를 극복하고자 합니다.#Review#Neural Rendering#Diffusion Models#G-Buffer#Autoregressive Generation#Temporal Consistency#ControlNet#ControlLoRA#Interactive Applications2025년 12월 18일댓글 수 로딩 중