#Zero-shot Generalization

10개의 포스트

[논문리뷰] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

Real-world Degradation 상황에서의 Image Restoration은 자율 주행(Autonomous Driving) 및 객체 탐지(Object Detection)와 같은 Downstream Task에 필수적이다.

#Review #Image Restoration #Real-World Degradation #Large-Scale Image Editing Models #Diffusion Models #Data Generation #RealIR-Bench #Zero-shot Generalization #Transfer Learning

2026년 3월 26일

[논문리뷰] World Action Models are Zero-shot Policies

본 논문은 Vision-Language-Action (VLA) 모델의 한계인 새로운 환경에서 미지의 물리적 동작에 대한 일반화 능력 부족을 해결하고자 합니다.

#Review #World Action Models #Video Diffusion Models #Zero-shot Generalization #Cross-embodiment Transfer #Real-time Control #Robotics #Foundation Models #Flow Matching

2026년 2월 18일

[논문리뷰] VideoMaMa: Mask-Guided Video Matting via Generative Prior

논문은 비디오 매팅 모델이 실제 세계 비디오에 효과적으로 일반화되지 못하는 문제, 즉 레이블링된 데이터의 희소성과 합성 비디오와 실제 비디오 간의 도메인 간극을 해결하는 것을 목표로 합니다.

#Review #Video Matting #Diffusion Models #Generative Priors #Mask-Guided #Pseudo-labeling #Large-scale Dataset #Zero-shot Generalization

2026년 1월 22일

[논문리뷰] Act2Goal: From World Model To General Goal-conditioned Policy

본 논문은 장기 로봇 조작(long-horizon robotic manipulation)에서 기존 목표 조건부 정책(GCP)이 겪는 문제점, 즉 장기 일관성 유지의 어려움과 국소적 교란에 대한 반응성의 부족을 해결하고자 합니다.

#Review #Goal-Conditioned Policy #World Models #Robotic Manipulation #Multi-Scale Temporal Hashing #Online Adaptation #Hindsight Experience Replay #LoRA Finetuning #Zero-shot Generalization

2025년 12월 29일

[논문리뷰] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

기존 비디오 생성 모델들이 단일 모달리티 조건화 및 제한된 모달 다양성으로 인해 세계를 총체적으로 이해하는 데 한계 가 있음을 지적하며, 이를 극복하기 위해 다중 모달리티(세분화 마스크, 인간 골격, DensePose, 광학 흐름, 깊이 맵) 및 다중 훈련 패러다임 을 통합하여 세계 인식 비디오 생성 을 향상시키는 것을 목표로 합니다.

#Review #Video Generation #Multi-modal Learning #Multi-task Learning #Zero-shot Generalization #Diffusion Models #World Models #Video Understanding

2025년 12월 8일

[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

기존 비디오 리트리벌 패러다임이 좁은 벤치마크, 제한된 데이터, 단일 태스크 훈련으로 인해 일반화 능력이 저해되는 문제를 해결하는 것입니다. 이 연구는 다차원 진단 평가 를 통해 범용 비디오 임베딩 의 진정한 일반화 능력을 정의하고 달성하는 것을 목표로 합니다.

#Review #Video Retrieval #Multimodal Embedding #Data Synthesis #Curriculum Learning #Zero-shot Generalization #Benchmark Design #MLLM #Video-Text Retrieval

2025년 11월 9일

[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

본 논문은 로봇 조작에서 'seeing-to-doing gap'을 해소하고 일반화 능력을 향상시키는 것을 목표로 합니다. 데이터 부족과 다양한 로봇 형태에 따른 지식 전달의 어려움을 극복하기 위해, 시각-언어 이해와 저수준 행동 기본 요소를 연결하는 '포인팅(pointing)' 을 범용적인 중간 표현 으로 제안합니다.

#Review #Embodied AI #Robotic Manipulation #Reinforcement Learning #Vision-Language Model #Pointing #Zero-shot Generalization

2025년 8월 20일

[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for Videos

기존의 통합 멀티모달 모델들이 이미지 도메인에 주로 한정되어 있고, 비디오 관련 작업은 태스크별 전문 모델에 의존하는 한계를 극복하고자 합니다. 본 연구는 비디오에 대한 통합적인 이해, 생성, 편집 을 단일 프레임워크 내에서 수행할 수 있는 다재다능한 모델을 개발하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #Video Generation #Video Editing #MLLM #Diffusion Transformer #In-Context Learning #Zero-shot Generalization #Multimodal AI

2025년 10월 10일

[논문리뷰] U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking

의료 영상 분할 분야에서 수천 가지의 U-Net 변형 모델이 제안되었음에도 불구하고, 이들의 성능과 실용성을 포괄적으로, 통계적으로 엄격하게, 그리고 효율성을 고려하여 평가하는 종합적인 벤치마크의 부재를 해결하는 것이 목표입니다.

#Review #U-Net #Medical Image Segmentation #Benchmarking #Performance Evaluation #Efficiency Metrics #Zero-shot Generalization #U-Score

2025년 10월 9일

[논문리뷰] DA^2: Depth Anything in Any Direction

파노라마 깊이 추정 분야에서 데이터 부족 , 제로샷 일반화 성능 저하 , 그리고 구형 왜곡 처리의 비효율성 이라는 세 가지 주요 문제를 해결하는 것을 목표로 합니다. 이를 통해 정확하고, 제로샷 일반화가 가능하며, 완전히 엔드-투-엔드 방식의 파노라마 깊이 추정 모델을 제시하고자 합니다.

#Review #Panoramic Depth Estimation #Zero-shot Generalization #Data Curation #SphereViT #Spherical Geometry #360-degree Imaging #Vision Transformer

2025년 10월 1일