[논문리뷰] Can Natural Image Autoencoders Compactly Tokenize fMRI Volumes for Long-Range Dynamics Modeling?저자들은 자연 영상에 사전 학습된 2D DCAE를 사용하여 3D fMRI 볼륨을 27개의 컴팩트한 토큰으로 효율적으로 압축하는 토큰화 방식을 제안합니다 . 이 토큰화된 데이터는 메모리 효율적인 Transformer 아키텍처에 입력되며, MTM을 통해 자기지도 사전 학습을 수행함으로써 하류 작업(downstream tasks) 성능을 향상합니다.#Review#fMRI#Transformer#Tokenization#Deep Compression Autoencoder#Self-supervised Learning#Long-range Dynamics2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Utonia: Toward One Encoder for All Point CloudsarXiv에 게시된 'Utonia: Toward One Encoder for All Point Clouds' 논문에 대한 자세한 리뷰입니다.#Review#Point Clouds#Self-supervised Learning#Multi-domain Learning#Foundation Model#Point Transformer#Representation Learning#Robotics#Spatial Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Olaf-World: Orienting Latent Actions for Video World ModelingMike Zheng Shou이 arXiv에 게시한 'Olaf-World: Orienting Latent Actions for Video World Modeling' 논문에 대한 자세한 리뷰입니다.#Review#Video World Models#Latent Actions#Cross-context Transfer#Zero-shot Action Transfer#Data-efficient Adaptation#Self-supervised Learning#Representation Alignment2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Next-Embedding Prediction Makes Strong Vision LearnersarXiv에 게시된 'Next-Embedding Prediction Makes Strong Vision Learners' 논문에 대한 자세한 리뷰입니다.#Review#Self-supervised Learning#Generative Pretraining#Vision Transformer#Next-Embedding Prediction#Autoregressive Model#Image Classification#Semantic Segmentation#Causal Masking2025년 12월 18일댓글 수 로딩 중
[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table RecognitionZichen Wen이 arXiv에 게시한 'TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition' 논문에 대한 자세한 리뷰입니다.#Review#Table Recognition#Self-supervised Learning#Vision-Language Models#Reinforcement Learning#Question Answering#Data Augmentation#GRPO2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Φeat: Physically-Grounded Feature RepresentationarXiv에 게시된 'Φeat: Physically-Grounded Feature Representation' 논문에 대한 자세한 리뷰입니다.#Review#Self-supervised Learning#Physically-Grounded Features#Material Representation#Intrinsic Scene Understanding#Vision Transformer#Synthetic Data#Contrastive Learning2025년 11월 18일댓글 수 로딩 중
[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth ObservationarXiv에 게시된 'OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation' 논문에 대한 자세한 리뷰입니다.#Review#Earth Observation#Foundation Model#Multimodal Learning#Self-supervised Learning#Latent Image Modeling#Vision Transformer#Spatio-temporal2025년 11월 17일댓글 수 로딩 중
[논문리뷰] Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion LearningZuyi Xiong이 arXiv에 게시한 'Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning' 논문에 대한 자세한 리뷰입니다.#Review#Self-supervised Learning#Depth Estimation#Ego-Motion Estimation#Motion Component Discrimination#Geometric Constraints#Optical Flow#PoseNet#DepthNet2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Document Understanding, Measurement, and Manipulation Using Category TheoryarXiv에 게시된 'Document Understanding, Measurement, and Manipulation Using Category Theory' 논문에 대한 자세한 리뷰입니다.#Review#Category Theory#Document Understanding#Large Language Models#Information Theory#Rhetorical Structure Theory#Document Summarization#Rate Distortion Analysis#Self-supervised Learning2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Latent Diffusion Model without Variational AutoencoderarXiv에 게시된 'Latent Diffusion Model without Variational Autoencoder' 논문에 대한 자세한 리뷰입니다.#Review#Latent Diffusion Model#Variational Autoencoder#Self-supervised Learning#DINO Features#Generative Models#Image Generation#Training Efficiency#Unified Representation2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Universal Image Restoration Pre-training via Masked Degradation ClassificationarXiv에 게시된 'Universal Image Restoration Pre-training via Masked Degradation Classification' 논문에 대한 자세한 리뷰입니다.#Review#Universal Image Restoration#Pre-training#Masked Image Modeling#Degradation Classification#Deep Learning#Computer Vision#Self-supervised Learning#Low-level Vision2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal ModelsarXiv에 게시된 'Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Unpaired Multimodal Learning#Unimodal Representation#Weight Sharing#Cross-modal Transfer#Fisher Information#Self-supervised Learning#Multimodal Neurons#Data Efficiency2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Visual Jigsaw Post-Training Improves MLLMsLewei Lu이 arXiv에 게시한 'Visual Jigsaw Post-Training Improves MLLMs' 논문에 대한 자세한 리뷰입니다.#Review#MLLMs#Post-training#Self-supervised Learning#Visual Understanding#Jigsaw Puzzles#RLVR#Multimodal Perception#Spatial Reasoning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning on Pre-Training DataEvander Yang이 arXiv에 게시한 'Reinforcement Learning on Pre-Training Data' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Pre-training#Large Language Models#Self-supervised Learning#Scaling Laws#Next-segment Reasoning#Reward Modeling2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Understanding Embedding Scaling in Collaborative FilteringYonghui Yang이 arXiv에 게시한 'Understanding Embedding Scaling in Collaborative Filtering' 논문에 대한 자세한 리뷰입니다.#Review#Collaborative Filtering#Embedding Scaling#Noise Robustness#Recommender Systems#Graph Neural Networks#Self-supervised Learning#Performance Degradation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Reconstruction Alignment Improves Unified Multimodal ModelsXuDong Wang이 arXiv에 게시한 'Reconstruction Alignment Improves Unified Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Models#Image Generation#Image Editing#Post-training#Self-supervised Learning#Reconstruction Alignment#Visual Embeddings2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Curia: A Multi-Modal Foundation Model for RadiologyElodie Ferreres이 arXiv에 게시한 'Curia: A Multi-Modal Foundation Model for Radiology' 논문에 대한 자세한 리뷰입니다.#Review#Foundation Model#Radiology#Computed Tomography (CT)#Magnetic Resonance Imaging (MRI)#Self-supervised Learning#Vision Transformer#Cross-Modality Generalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] MedDINOv3: How to adapt vision foundation models for medical image segmentation?Xiaofeng Yang이 arXiv에 게시한 'MedDINOv3: How to adapt vision foundation models for medical image segmentation?' 논문에 대한 자세한 리뷰입니다.#Review#Medical Image Segmentation#Vision Foundation Models#Self-supervised Learning#Vision Transformers (ViT)#Domain Adaptation#DINOv3#CT Imaging2025년 9월 3일댓글 수 로딩 중
[논문리뷰] MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference AlignmentAn-An Liu이 arXiv에 게시한 'MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Text-Guided Motion Generation#Rectified Flow Matching#Preference Alignment#Human Motion Synthesis#Real-time AI#Transformer Architecture#Self-supervised Learning2025년 8월 28일댓글 수 로딩 중
[논문리뷰] MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation DataNicolas Gonthier이 arXiv에 게시한 'MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data' 논문에 대한 자세한 리뷰입니다.#Review#Self-supervised Learning#Masked Autoencoder#Earth Observation#Multimodal#Multitemporal#Multispectral#Fusion Strategies#Target Normalization2025년 8월 18일댓글 수 로딩 중
[논문리뷰] DINOv3Maxime Oquab이 arXiv에 게시한 'DINOv3' 논문에 대한 자세한 리뷰입니다.#Review#Self-supervised Learning#Foundation Models#Vision Transformer#Dense Feature Maps#Gram Anchoring#Model Distillation#Geospatial AI2025년 8월 18일댓글 수 로딩 중