#Self-supervised Learning

26개의 포스트

[논문리뷰] SiamJEPA: On the Role of Siamese Student Encoders in JEPA

본 논문은 JEPA 프레임워크 내에서 Siamese Student Encoders의 역할과 이들이 표현 학습에 미치는 유의미한 영향력을 체계적으로 규명하는 것을 목표로 합니다.

#Review #Self-supervised Learning #JEPA #Siamese Student Encoders #Representation Learning #Latent Prediction #Inductive Bias

2026년 7월 7일

[논문리뷰] MuSViT: A Foundation Vision Model for Sheet Music Representation

본 연구는 시각적 악보(Sheet Music) 데이터를 구조화된 디지털 포맷으로 변환하는 강력한 도메인 전용 Backbone 모델의 부재를 해결하고자 합니다.

#Review #Foundation Model #Vision Transformer #Sheet Music Recognition #Masked Autoencoders #Self-supervised Learning #Optical Music Recognition

2026년 6월 30일

[논문리뷰] NITP: Next Implicit Token Prediction for LLM Pre-training

본 논문은 표준적인 NTP가 잠재 표현(latent representation)에 대해 충분한 기하학적 제약을 제공하지 못한다는 문제를 해결하고자 한다.

#Review #LLM Pre-training #Next Implicit Token Prediction #Representation Geometry #Representation Degeneration #Self-supervised Learning #MoE #Representation Expressivity

2026년 6월 1일

[논문리뷰] Seeing Fast and Slow: Learning the Flow of Time in Videos

본 연구는 기존 비디오 모델들이 물리적 세계의 시간 흐름을 이해하고 제어하지 못하는 근본적인 한계를 해결하고자 한다.

#Review #Video Generation #Slow-motion #Temporal Super-resolution #Self-supervised Learning #Video Forensics #Time-frequency Scaling

2026년 4월 23일

[논문리뷰] OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

저자들은 시간 순서 재구성(temporal reordering) proxy task를 기반으로 세 가지 모달리티 오케스트레이션 전략(JMI, SMS, CMM)을 제안합니다. 특히, CMM 전략은 클립별로 정보를 마스킹하여 모델이 시각과 청각 정보를 능동적으로 교차 분석하게 함으로써 학습 성능을 극대화합니다 .

#Review #Omni-modal Reasoning #Reinforcement Learning #Self-supervised Learning #Jigsaw Proxy Task #Modality Orchestration #Data Filtering

2026년 4월 9일

[논문리뷰] Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?

저자들은 자연 영상에 사전 학습된 2D DCAE를 사용하여 3D fMRI 볼륨을 27개의 컴팩트한 토큰으로 효율적으로 압축하는 토큰화 방식을 제안합니다 . 이 토큰화된 데이터는 메모리 효율적인 Transformer 아키텍처에 입력되며, MTM을 통해 자기지도 사전 학습을 수행함으로써 하류 작업(downstream tasks) 성능을 향상합니다.

#Review #fMRI #Transformer #Tokenization #Deep Compression Autoencoder #Self-supervised Learning #Long-range Dynamics

2026년 4월 7일

[논문리뷰] Utonia: Toward One Encoder for All Point Clouds

본 논문의 핵심 목표는 단일 인코더 로 원격 감지, 실외 LiDAR, 실내 RGB-D 시퀀스, 객체 중심 CAD 모델, 비디오 리프티드 포인트 클라우드 등 다양한 도메인의 포인트 클라우드를 통합 처리 하는 것입니다.

#Review #Point Clouds #Self-supervised Learning #Multi-domain Learning #Foundation Model #Point Transformer #Representation Learning #Robotics #Spatial Reasoning

2026년 3월 3일

[논문리뷰] Olaf-World: Orienting Latent Actions for Video World Modeling

본 논문은 액션 레이블의 희소성으로 인해 액션-제어 가능한 월드 모델의 확장이 제한되는 문제를 해결하고자 합니다.

#Review #Video World Models #Latent Actions #Cross-context Transfer #Zero-shot Action Transfer #Data-efficient Adaptation #Self-supervised Learning #Representation Alignment

2026년 2월 10일

[논문리뷰] Next-Embedding Prediction Makes Strong Vision Learners

본 논문은 자연어 처리 분야의 생성적 사전 훈련(generative pretraining) 성공 사례에서 영감을 받아, 다음 임베딩 예측(next-embedding prediction) 을 통해 비전 태스크에서 강력한 자기 지도 학습(self-supervised learning) 모델을 구축하는 것을 목표로 합니다.

#Review #Self-supervised Learning #Generative Pretraining #Vision Transformer #Next-Embedding Prediction #Autoregressive Model #Image Classification #Semantic Segmentation #Causal Masking

2025년 12월 18일

[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

본 논문은 테이블 인식(TR) 시스템 개발 시 대규모 레이블링된 데이터의 높은 비용과 접근성 한계 로 인해 오픈소스 모델이 독점 모델에 비해 뒤처지는 문제를 해결하고자 합니다.

#Review #Table Recognition #Self-supervised Learning #Vision-Language Models #Reinforcement Learning #Question Answering #Data Augmentation #GRPO

2025년 12월 2일

[논문리뷰] Φeat: Physically-Grounded Feature Representation

기존의 자기 지도 시각 백본이 고수준의 의미론적 특징과 저수준의 물리적 요소를 혼합하여 물리적 추론을 방해하는 문제를 해결하고자 합니다.

#Review #Self-supervised Learning #Physically-Grounded Features #Material Representation #Intrinsic Scene Understanding #Vision Transformer #Synthetic Data #Contrastive Learning

2025년 11월 18일

[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

본 논문은 공간적, 시간적, 다중 모달 특성을 지닌 지구 관측 데이터의 복잡성으로 인해 발생하는 기존 파운데이션 모델의 훈련 불안정성, 높은 비용, 그리고 비영리 부문의 낮은 실제 적용률 문제를 해결하는 것을 목표로 합니다.

#Review #Earth Observation #Foundation Model #Multimodal Learning #Self-supervised Learning #Latent Image Modeling #Vision Transformer #Spatio-temporal

2025년 11월 17일

[논문리뷰] Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning

본 논문은 심도 추정 및 에고-모션 학습을 위한 기존의 자율학습(unsupervised learning) 프레임워크가 모션 구성요소(회전, 병진)를 불분명하게 처리하여 신뢰성과 견고성이 저하되는 문제를 해결하고자 합니다.

#Review #Self-supervised Learning #Depth Estimation #Ego-Motion Estimation #Motion Component Discrimination #Geometric Constraints #Optical Flow #PoseNet #DepthNet

2025년 11월 9일

[논문리뷰] Visual Jigsaw Post-Training Improves MLLMs

본 논문은 기존 MLLM(Multimodal Large Language Models)의 텍스트 중심 후속 훈련 패러다임이 시각 신호에 대한 세밀한 이해를 과소평가한다는 문제점을 해결하고자 합니다.

#Review #MLLMs #Post-training #Self-supervised Learning #Visual Understanding #Jigsaw Puzzles #RLVR #Multimodal Perception #Spatial Reasoning

2025년 9월 30일

[논문리뷰] Reinforcement Learning on Pre-Training Data

논문은 대규모 언어 모델(LLM)의 훈련 시 발생하는 컴퓨팅 자원의 기하급수적 증가와 고품질 텍스트 데이터의 유한한 성장 사이의 불균형 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Pre-training #Large Language Models #Self-supervised Learning #Scaling Laws #Next-segment Reasoning #Reward Modeling

2025년 9월 24일

[논문리뷰] Understanding Embedding Scaling in Collaborative Filtering

협업 필터링 모델에서 임베딩 차원을 확장할 때 발생하는 성능 변화를 이해하고, 기존에 알려진 '단일 봉우리(single-peak)' 현상을 넘어서는 새로운 스케일링 패턴을 발견하는 것이 목표입니다. 또한, 이러한 현상의 근본적인 원인을 밝히고 특히 데이터 내 노이즈 상호작용 의 역할을 규명하고자 합니다.

#Review #Collaborative Filtering #Embedding Scaling #Noise Robustness #Recommender Systems #Graph Neural Networks #Self-supervised Learning #Performance Degradation

2025년 9월 23일

[논문리뷰] Reconstruction Alignment Improves Unified Multimodal Models

논문은 통합 멀티모달 모델(UMM)이 이미지-텍스트 쌍으로 훈련될 때 캡션의 희소성으로 인해 미세한 시각적 디테일을 놓치고, 이해와 생성 간의 정렬이 불완전하다는 문제를 해결하고자 합니다.

#Review #Unified Multimodal Models #Image Generation #Image Editing #Post-training #Self-supervised Learning #Reconstruction Alignment #Visual Embeddings

2025년 9월 10일

[논문리뷰] Curia: A Multi-Modal Foundation Model for Radiology

기존 방사선과 AI 모델의 '원 태스크, 원 모델' 방식이 비효율적이고 일반화 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Foundation Model #Radiology #Computed Tomography (CT)#Magnetic Resonance Imaging (MRI)#Self-supervised Learning #Vision Transformer #Cross-Modality Generalization

2025년 9월 10일

[논문리뷰] MedDINOv3: How to adapt vision foundation models for medical image segmentation?

의료 영상 분할에서 Vision Foundation Models (FMs) 의 효과적인 적용을 저해하는 두 가지 핵심 과제, 즉 ViT 백본 이 특수화된 CNN 보다 낮은 성능을 보이는 문제와 자연 이미지와 의료 이미지 간의 큰 도메인 격차 를 해결하는 것을 목표로 합니다.

#Review #Medical Image Segmentation #Vision Foundation Models #Self-supervised Learning #Vision Transformers (ViT)#Domain Adaptation #DINOv3 #CT Imaging

2025년 9월 3일

[논문리뷰] MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment

본 논문은 기존 텍스트 기반 모션 생성 방법론이 겪는 언어적 설명과 모션 의미 간의 부정확한 정렬 및 느리고 비효율적인 다단계 추론 과정 의 문제를 해결하고자 합니다. 궁극적으로 강력한 의미론적 정렬, 고품질 모션 생성, 그리고 실시간 합성을 가능하게 하는 프레임워크를 개발하는 것이 목표입니다.

#Review #Text-Guided Motion Generation #Rectified Flow Matching #Preference Alignment #Human Motion Synthesis #Real-time AI #Transformer Architecture #Self-supervised Learning

2025년 8월 28일

[논문리뷰] MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data

본 논문은 지구 관측(EO) 데이터 의 고유한 다중 모달, 다중 시간, 다중 스펙트럼 특성을 효율적으로 처리하기 위해 Masked Autoencoder (MAE) 프레임워크를 최적화하는 것을 목표로 합니다. 이를 통해 EO 데이터 의 복잡한 이질성을 효과적으로 통합하고 유용하며 다목적의 표현을 학습하고자 합니다.

#Review #Self-supervised Learning #Masked Autoencoder #Earth Observation #Multimodal #Multitemporal #Multispectral #Fusion Strategies #Target Normalization

2025년 8월 18일

[논문리뷰] DINOv3

본 연구는 수동 데이터 주석 없이 대규모 데이터셋 과 대규모 아키텍처 에 맞춰 모델을 확장하고, 단일 알고리즘으로 다양한 소스(자연 이미지부터 항공 이미지까지)에서 범용적인 시각 표현 을 학습하는 것을 목표로 합니다.

#Review #Self-supervised Learning #Foundation Models #Vision Transformer #Dense Feature Maps #Gram Anchoring #Model Distillation #Geospatial AI

2025년 8월 18일

[논문리뷰] Document Understanding, Measurement, and Manipulation Using Category Theory

본 논문은 범주 이론(Category Theory) 을 활용하여 문서의 구조를 추출하고 정보 콘텐츠를 측정 하며, 요약 및 확장(exegesis) 과 같은 조작을 가능하게 하는 수학적 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Category Theory #Document Understanding #Large Language Models #Information Theory #Rhetorical Structure Theory #Document Summarization #Rate Distortion Analysis #Self-supervised Learning

2025년 10월 27일

[논문리뷰] Latent Diffusion Model without Variational Autoencoder

기존 잠재 확산 모델(LDM)이 VAE(Variational Autoencoder) 의 한계로 인해 훈련 비효율성, 느린 추론 속도, 낮은 전이 학습 능력을 보이는 문제를 해결하고자 합니다.

#Review #Latent Diffusion Model #Variational Autoencoder #Self-supervised Learning #DINO Features #Generative Models #Image Generation #Training Efficiency #Unified Representation

2025년 10월 20일

[논문리뷰] Universal Image Restoration Pre-training via Masked Degradation Classification

본 논문은 다양한 종류의 이미지 손상(degradation)을 복원하는 단일 모델(universal image restoration)의 성능을 향상시키기 위해, 기존 사전 훈련 방법론의 한계를 극복하고자 합니다.

#Review #Universal Image Restoration #Pre-training #Masked Image Modeling #Degradation Classification #Deep Learning #Computer Vision #Self-supervised Learning #Low-level Vision

2025년 10월 16일

[논문리뷰] Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

본 논문은 기존 멀티모달 학습이 paired datasets 에 크게 의존하는 한계를 해결하고자 합니다.

#Review #Unpaired Multimodal Learning #Unimodal Representation #Weight Sharing #Cross-modal Transfer #Fisher Information #Self-supervised Learning #Multimodal Neurons #Data Efficiency

2025년 10월 13일