[논문리뷰] NITP: Next Implicit Token Prediction for LLM Pre-training본 논문은 표준적인 NTP가 잠재 표현(latent representation)에 대해 충분한 기하학적 제약을 제공하지 못한다는 문제를 해결하고자 한다.#Review#LLM Pre-training#Next Implicit Token Prediction#Representation Geometry#Representation Degeneration#Self-supervised Learning#MoE#Representation Expressivity2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Seeing Fast and Slow: Learning the Flow of Time in Videos본 연구는 기존 비디오 모델들이 물리적 세계의 시간 흐름을 이해하고 제어하지 못하는 근본적인 한계를 해결하고자 한다.#Review#Video Generation#Slow-motion#Temporal Super-resolution#Self-supervised Learning#Video Forensics#Time-frequency Scaling2026년 4월 23일댓글 수 로딩 중
[논문리뷰] OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering저자들은 시간 순서 재구성(temporal reordering) proxy task를 기반으로 세 가지 모달리티 오케스트레이션 전략(JMI, SMS, CMM)을 제안합니다. 특히, CMM 전략은 클립별로 정보를 마스킹하여 모델이 시각과 청각 정보를 능동적으로 교차 분석하게 함으로써 학습 성능을 극대화합니다 .#Review#Omni-modal Reasoning#Reinforcement Learning#Self-supervised Learning#Jigsaw Proxy Task#Modality Orchestration#Data Filtering2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?저자들은 자연 영상에 사전 학습된 2D DCAE를 사용하여 3D fMRI 볼륨을 27개의 컴팩트한 토큰으로 효율적으로 압축하는 토큰화 방식을 제안합니다 . 이 토큰화된 데이터는 메모리 효율적인 Transformer 아키텍처에 입력되며, MTM을 통해 자기지도 사전 학습을 수행함으로써 하류 작업(downstream tasks) 성능을 향상합니다.#Review#fMRI#Transformer#Tokenization#Deep Compression Autoencoder#Self-supervised Learning#Long-range Dynamics2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Utonia: Toward One Encoder for All Point Clouds본 논문의 핵심 목표는 단일 인코더 로 원격 감지, 실외 LiDAR, 실내 RGB-D 시퀀스, 객체 중심 CAD 모델, 비디오 리프티드 포인트 클라우드 등 다양한 도메인의 포인트 클라우드를 통합 처리 하는 것입니다.#Review#Point Clouds#Self-supervised Learning#Multi-domain Learning#Foundation Model#Point Transformer#Representation Learning#Robotics#Spatial Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Olaf-World: Orienting Latent Actions for Video World Modeling본 논문은 액션 레이블의 희소성으로 인해 액션-제어 가능한 월드 모델의 확장이 제한되는 문제를 해결하고자 합니다.#Review#Video World Models#Latent Actions#Cross-context Transfer#Zero-shot Action Transfer#Data-efficient Adaptation#Self-supervised Learning#Representation Alignment2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Next-Embedding Prediction Makes Strong Vision Learners본 논문은 자연어 처리 분야의 생성적 사전 훈련(generative pretraining) 성공 사례에서 영감을 받아, 다음 임베딩 예측(next-embedding prediction) 을 통해 비전 태스크에서 강력한 자기 지도 학습(self-supervised learning) 모델을 구축하는 것을 목표로 합니다.#Review#Self-supervised Learning#Generative Pretraining#Vision Transformer#Next-Embedding Prediction#Autoregressive Model#Image Classification#Semantic Segmentation#Causal Masking2025년 12월 18일댓글 수 로딩 중
[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition본 논문은 테이블 인식(TR) 시스템 개발 시 대규모 레이블링된 데이터의 높은 비용과 접근성 한계 로 인해 오픈소스 모델이 독점 모델에 비해 뒤처지는 문제를 해결하고자 합니다.#Review#Table Recognition#Self-supervised Learning#Vision-Language Models#Reinforcement Learning#Question Answering#Data Augmentation#GRPO2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Φeat: Physically-Grounded Feature Representation기존의 자기 지도 시각 백본이 고수준의 의미론적 특징과 저수준의 물리적 요소를 혼합하여 물리적 추론을 방해하는 문제를 해결하고자 합니다.#Review#Self-supervised Learning#Physically-Grounded Features#Material Representation#Intrinsic Scene Understanding#Vision Transformer#Synthetic Data#Contrastive Learning2025년 11월 18일댓글 수 로딩 중
[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation본 논문은 공간적, 시간적, 다중 모달 특성을 지닌 지구 관측 데이터의 복잡성으로 인해 발생하는 기존 파운데이션 모델의 훈련 불안정성, 높은 비용, 그리고 비영리 부문의 낮은 실제 적용률 문제를 해결하는 것을 목표로 합니다.#Review#Earth Observation#Foundation Model#Multimodal Learning#Self-supervised Learning#Latent Image Modeling#Vision Transformer#Spatio-temporal2025년 11월 17일댓글 수 로딩 중
[논문리뷰] Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning본 논문은 심도 추정 및 에고-모션 학습을 위한 기존의 자율학습(unsupervised learning) 프레임워크가 모션 구성요소(회전, 병진)를 불분명하게 처리하여 신뢰성과 견고성이 저하되는 문제를 해결하고자 합니다.#Review#Self-supervised Learning#Depth Estimation#Ego-Motion Estimation#Motion Component Discrimination#Geometric Constraints#Optical Flow#PoseNet#DepthNet2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Visual Jigsaw Post-Training Improves MLLMs본 논문은 기존 MLLM(Multimodal Large Language Models)의 텍스트 중심 후속 훈련 패러다임이 시각 신호에 대한 세밀한 이해를 과소평가한다는 문제점을 해결하고자 합니다.#Review#MLLMs#Post-training#Self-supervised Learning#Visual Understanding#Jigsaw Puzzles#RLVR#Multimodal Perception#Spatial Reasoning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning on Pre-Training Data논문은 대규모 언어 모델(LLM)의 훈련 시 발생하는 컴퓨팅 자원의 기하급수적 증가와 고품질 텍스트 데이터의 유한한 성장 사이의 불균형 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Pre-training#Large Language Models#Self-supervised Learning#Scaling Laws#Next-segment Reasoning#Reward Modeling2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Understanding Embedding Scaling in Collaborative Filtering협업 필터링 모델에서 임베딩 차원을 확장할 때 발생하는 성능 변화를 이해하고, 기존에 알려진 '단일 봉우리(single-peak)' 현상을 넘어서는 새로운 스케일링 패턴을 발견하는 것이 목표입니다. 또한, 이러한 현상의 근본적인 원인을 밝히고 특히 데이터 내 노이즈 상호작용 의 역할을 규명하고자 합니다.#Review#Collaborative Filtering#Embedding Scaling#Noise Robustness#Recommender Systems#Graph Neural Networks#Self-supervised Learning#Performance Degradation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Reconstruction Alignment Improves Unified Multimodal Models논문은 통합 멀티모달 모델(UMM)이 이미지-텍스트 쌍으로 훈련될 때 캡션의 희소성으로 인해 미세한 시각적 디테일을 놓치고, 이해와 생성 간의 정렬이 불완전하다는 문제를 해결하고자 합니다.#Review#Unified Multimodal Models#Image Generation#Image Editing#Post-training#Self-supervised Learning#Reconstruction Alignment#Visual Embeddings2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Curia: A Multi-Modal Foundation Model for Radiology기존 방사선과 AI 모델의 '원 태스크, 원 모델' 방식이 비효율적이고 일반화 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Foundation Model#Radiology#Computed Tomography (CT)#Magnetic Resonance Imaging (MRI)#Self-supervised Learning#Vision Transformer#Cross-Modality Generalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] MedDINOv3: How to adapt vision foundation models for medical image segmentation?의료 영상 분할에서 Vision Foundation Models (FMs) 의 효과적인 적용을 저해하는 두 가지 핵심 과제, 즉 ViT 백본 이 특수화된 CNN 보다 낮은 성능을 보이는 문제와 자연 이미지와 의료 이미지 간의 큰 도메인 격차 를 해결하는 것을 목표로 합니다.#Review#Medical Image Segmentation#Vision Foundation Models#Self-supervised Learning#Vision Transformers (ViT)#Domain Adaptation#DINOv3#CT Imaging2025년 9월 3일댓글 수 로딩 중
[논문리뷰] MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment본 논문은 기존 텍스트 기반 모션 생성 방법론이 겪는 언어적 설명과 모션 의미 간의 부정확한 정렬 및 느리고 비효율적인 다단계 추론 과정 의 문제를 해결하고자 합니다. 궁극적으로 강력한 의미론적 정렬, 고품질 모션 생성, 그리고 실시간 합성을 가능하게 하는 프레임워크를 개발하는 것이 목표입니다.#Review#Text-Guided Motion Generation#Rectified Flow Matching#Preference Alignment#Human Motion Synthesis#Real-time AI#Transformer Architecture#Self-supervised Learning2025년 8월 28일댓글 수 로딩 중
[논문리뷰] MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data본 논문은 지구 관측(EO) 데이터 의 고유한 다중 모달, 다중 시간, 다중 스펙트럼 특성을 효율적으로 처리하기 위해 Masked Autoencoder (MAE) 프레임워크를 최적화하는 것을 목표로 합니다. 이를 통해 EO 데이터 의 복잡한 이질성을 효과적으로 통합하고 유용하며 다목적의 표현을 학습하고자 합니다.#Review#Self-supervised Learning#Masked Autoencoder#Earth Observation#Multimodal#Multitemporal#Multispectral#Fusion Strategies#Target Normalization2025년 8월 18일댓글 수 로딩 중
[논문리뷰] DINOv3본 연구는 수동 데이터 주석 없이 대규모 데이터셋 과 대규모 아키텍처 에 맞춰 모델을 확장하고, 단일 알고리즘으로 다양한 소스(자연 이미지부터 항공 이미지까지)에서 범용적인 시각 표현 을 학습하는 것을 목표로 합니다.#Review#Self-supervised Learning#Foundation Models#Vision Transformer#Dense Feature Maps#Gram Anchoring#Model Distillation#Geospatial AI2025년 8월 18일댓글 수 로딩 중
[논문리뷰] Universal Image Restoration Pre-training via Masked Degradation Classification본 논문은 다양한 종류의 이미지 손상(degradation)을 복원하는 단일 모델(universal image restoration)의 성능을 향상시키기 위해, 기존 사전 훈련 방법론의 한계를 극복하고자 합니다.#Review#Universal Image Restoration#Pre-training#Masked Image Modeling#Degradation Classification#Deep Learning#Computer Vision#Self-supervised Learning#Low-level Vision2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models본 논문은 기존 멀티모달 학습이 paired datasets 에 크게 의존하는 한계를 해결하고자 합니다.#Review#Unpaired Multimodal Learning#Unimodal Representation#Weight Sharing#Cross-modal Transfer#Fisher Information#Self-supervised Learning#Multimodal Neurons#Data Efficiency2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Document Understanding, Measurement, and Manipulation Using Category Theory본 논문은 범주 이론(Category Theory) 을 활용하여 문서의 구조를 추출하고 정보 콘텐츠를 측정 하며, 요약 및 확장(exegesis) 과 같은 조작을 가능하게 하는 수학적 프레임워크를 개발하는 것을 목표로 합니다.#Review#Category Theory#Document Understanding#Large Language Models#Information Theory#Rhetorical Structure Theory#Document Summarization#Rate Distortion Analysis#Self-supervised Learning2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Latent Diffusion Model without Variational Autoencoder기존 잠재 확산 모델(LDM)이 VAE(Variational Autoencoder) 의 한계로 인해 훈련 비효율성, 느린 추론 속도, 낮은 전이 학습 능력을 보이는 문제를 해결하고자 합니다.#Review#Latent Diffusion Model#Variational Autoencoder#Self-supervised Learning#DINO Features#Generative Models#Image Generation#Training Efficiency#Unified Representation2025년 10월 20일댓글 수 로딩 중