[논문리뷰] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing ModelsReal-world Degradation 상황에서의 Image Restoration은 자율 주행(Autonomous Driving) 및 객체 탐지(Object Detection)와 같은 Downstream Task에 필수적이다.#Review#Image Restoration#Real-World Degradation#Large-Scale Image Editing Models#Diffusion Models#Data Generation#RealIR-Bench#Zero-shot Generalization#Transfer Learning2026년 3월 26일댓글 수 로딩 중
[논문리뷰] World Action Models are Zero-shot Policies본 논문은 Vision-Language-Action (VLA) 모델의 한계인 새로운 환경에서 미지의 물리적 동작에 대한 일반화 능력 부족을 해결하고자 합니다.#Review#World Action Models#Video Diffusion Models#Zero-shot Generalization#Cross-embodiment Transfer#Real-time Control#Robotics#Foundation Models#Flow Matching2026년 2월 18일댓글 수 로딩 중
[논문리뷰] VideoMaMa: Mask-Guided Video Matting via Generative Prior논문은 비디오 매팅 모델이 실제 세계 비디오에 효과적으로 일반화되지 못하는 문제, 즉 레이블링된 데이터의 희소성과 합성 비디오와 실제 비디오 간의 도메인 간극을 해결하는 것을 목표로 합니다.#Review#Video Matting#Diffusion Models#Generative Priors#Mask-Guided#Pseudo-labeling#Large-scale Dataset#Zero-shot Generalization2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Act2Goal: From World Model To General Goal-conditioned Policy본 논문은 장기 로봇 조작(long-horizon robotic manipulation)에서 기존 목표 조건부 정책(GCP)이 겪는 문제점, 즉 장기 일관성 유지의 어려움과 국소적 교란에 대한 반응성의 부족을 해결하고자 합니다.#Review#Goal-Conditioned Policy#World Models#Robotic Manipulation#Multi-Scale Temporal Hashing#Online Adaptation#Hindsight Experience Replay#LoRA Finetuning#Zero-shot Generalization2025년 12월 29일댓글 수 로딩 중
[논문리뷰] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation기존 비디오 생성 모델들이 단일 모달리티 조건화 및 제한된 모달 다양성으로 인해 세계를 총체적으로 이해하는 데 한계 가 있음을 지적하며, 이를 극복하기 위해 다중 모달리티(세분화 마스크, 인간 골격, DensePose, 광학 흐름, 깊이 맵) 및 다중 훈련 패러다임 을 통합하여 세계 인식 비디오 생성 을 향상시키는 것을 목표로 합니다.#Review#Video Generation#Multi-modal Learning#Multi-task Learning#Zero-shot Generalization#Diffusion Models#World Models#Video Understanding2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum기존 비디오 리트리벌 패러다임이 좁은 벤치마크, 제한된 데이터, 단일 태스크 훈련으로 인해 일반화 능력이 저해되는 문제를 해결하는 것입니다. 이 연구는 다차원 진단 평가 를 통해 범용 비디오 임베딩 의 진정한 일반화 능력을 정의하고 달성하는 것을 목표로 합니다.#Review#Video Retrieval#Multimodal Embedding#Data Synthesis#Curriculum Learning#Zero-shot Generalization#Benchmark Design#MLLM#Video-Text Retrieval2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation본 논문은 로봇 조작에서 'seeing-to-doing gap'을 해소하고 일반화 능력을 향상시키는 것을 목표로 합니다. 데이터 부족과 다양한 로봇 형태에 따른 지식 전달의 어려움을 극복하기 위해, 시각-언어 이해와 저수준 행동 기본 요소를 연결하는 '포인팅(pointing)' 을 범용적인 중간 표현 으로 제안합니다.#Review#Embodied AI#Robotic Manipulation#Reinforcement Learning#Vision-Language Model#Pointing#Zero-shot Generalization2025년 8월 20일댓글 수 로딩 중
[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for Videos기존의 통합 멀티모달 모델들이 이미지 도메인에 주로 한정되어 있고, 비디오 관련 작업은 태스크별 전문 모델에 의존하는 한계를 극복하고자 합니다. 본 연구는 비디오에 대한 통합적인 이해, 생성, 편집 을 단일 프레임워크 내에서 수행할 수 있는 다재다능한 모델을 개발하는 것을 목표로 합니다.#Review#Unified Multimodal Model#Video Generation#Video Editing#MLLM#Diffusion Transformer#In-Context Learning#Zero-shot Generalization#Multimodal AI2025년 10월 10일댓글 수 로딩 중
[논문리뷰] U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking의료 영상 분할 분야에서 수천 가지의 U-Net 변형 모델이 제안되었음에도 불구하고, 이들의 성능과 실용성을 포괄적으로, 통계적으로 엄격하게, 그리고 효율성을 고려하여 평가하는 종합적인 벤치마크의 부재를 해결하는 것이 목표입니다.#Review#U-Net#Medical Image Segmentation#Benchmarking#Performance Evaluation#Efficiency Metrics#Zero-shot Generalization#U-Score2025년 10월 9일댓글 수 로딩 중
[논문리뷰] DA^2: Depth Anything in Any Direction파노라마 깊이 추정 분야에서 데이터 부족 , 제로샷 일반화 성능 저하 , 그리고 구형 왜곡 처리의 비효율성 이라는 세 가지 주요 문제를 해결하는 것을 목표로 합니다. 이를 통해 정확하고, 제로샷 일반화가 가능하며, 완전히 엔드-투-엔드 방식의 파노라마 깊이 추정 모델을 제시하고자 합니다.#Review#Panoramic Depth Estimation#Zero-shot Generalization#Data Curation#SphereViT#Spherical Geometry#360-degree Imaging#Vision Transformer2025년 10월 1일댓글 수 로딩 중