#Self-Supervised Learning

37개의 포스트

[논문리뷰] Vision Pretraining for Dense Spatial Perception

본 논문은 현대의 비전 파운데이션 모델들이 Semantic Invariance를 우선시하여 고밀도 공간 이해(Dense Spatial Perception) 능력이 부족하다는 문제를 해결하고자 한다 .

#Review #Vision Pretraining #Masked Boundary Modeling #Self-Supervised Learning #Dense Spatial Perception #Vision Transformer #Boundary-Forcing Masking #Categorical Reparameterization

2026년 7월 6일

[논문리뷰] Speaker-Disentangled Chunk-Wise Regression for Syllabic Tokenization

본 논문은 기존의 syllabic tokenization 방식인 SD-HuBERT가 음절의 linguisitic content를 정교하게 추출하지 못하고 speaker identity를 과도하게 반영하는 문제를 해결하고자 합니다 .

#Review #Syllabic Tokenization #Speaker-Disentangled #Chunk-Wise Regression #Self-Supervised Learning #Speech Language Modeling #Syllable Discovery

2026년 7월 6일

[논문리뷰] Speaker-Aware Temporal Aggregation Strategies on Segment Representations for Depression Detection in Dyadic Interaction: A Benchmark Study

본 논문은 기존의 우울증 감지 연구들이 단일 SSL Backbone과 임의로 선택된 단일 레이어에 의존함으로써 발생하는 편향성 문제를 해결하고자 한다.

#Review #Depression Detection #Temporal Aggregation #Self-Supervised Learning #Benchmark #Dyadic Interaction #SSL Backbones

2026년 7월 6일

[논문리뷰] AGE: Adaptive-masking for Graph Embedding in Graph Retrieval-Augmented Generation

현재 GraphRAG 연구는 그래프의 복잡한 관계를 LLM이 효과적으로 이해하도록 하는 데 어려움을 겪고 있다. 특히 기존의 비모수적(non-parametric) 검색 방식은 그래프 내 필수적인 구조 정보를 누락하거나 중복되는 노드를 포함하는 경우가 많아, 전체적인 검색 정확도와 추론 성능을 저하시키는 원인이 된다.

#Review #GraphRAG #Adaptive-masking #Graph Embedding #Self-Supervised Learning #JEPA #Reinforcement Learning

2026년 7월 5일

[논문리뷰] MemTrain: Self-Supervised Context Memory Training

본 논문은 장기적인 컨텍스트를 처리해야 하는 LLM 에이전트에서 Memory 병목 현상을 해결하는 것을 핵심 문제로 다룹니다 . 기존의 연구들은 전체 입력 기록을 컨텍스트에 모두 포함시키는 방식을 사용했으나, 이는 계산 비용의 급격한 증가를 초래합니다.

#Review #LLM Agents #Context Memory #Self-Supervised Learning #Reinforcement Learning #GRPO #Long-Horizon Reasoning

2026년 6월 3일

[논문리뷰] MERIT: Learning Disentangled Music Representations for Audio Similarity

본 논문은 기존 음악 유사도 모델이 여러 음악적 요소를 하나의 Monolithic 점수로 융합하여 표현함에 따라 발생하는 해석 가능성 및 세밀한 쿼리 제어의 한계를 해결하고자 합니다 .

#Review #Music Representation Learning #Disentanglement #Audio Similarity #Representation Learning #Contrastive Learning #Self-Supervised Learning

2026년 6월 2일

[논문리뷰] The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

본 논문은 현대의 RLHF 파이프라인에서 발생하는 정적 RM 학습 데이터의 한계와 정책 드리프트(distribution shift) 문제를 해결하고자 한다.

#Review #RLHF #Reward Model #Self-Supervised Learning #On-Policy Feedback #Value-Anchored #Minimax Optimization #Policy Alignment

2026년 5월 31일

[논문리뷰] Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence

본 논문은 2D 기반 Foundation Model들이 가지는 3D 인지 능력 부족으로 인한 semantic correspondence의 구조적 오류를 해결하고자 합니다.

#Review #Semantic Correspondence #3D Foundation Models #PartField #Geodesic Filtering #Self-Supervised Learning #Render-and-Compare

2026년 5월 28일

[논문리뷰] TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

본 논문은 Deep Compression 오토인코더에서 발생하는 잠재 표현의 붕괴(Latent Representation Collapse) 문제를 해결하여 생성 성능을 개선하고자 합니다.

#Review #Vision Transformer #Deep Compression #Autoencoder #Latent Diffusion Models #Token Scaling #Staged Token Compression #Self-Supervised Learning

2026년 4월 8일

[논문리뷰] MOOZY: A Patient-First Foundation Model for Computational Pathology

현재 병리 인공지능 분야의 파운데이션 모델들은 주로 Slide-centric 구조에 머물러 있어, 한 환자의 여러 슬라이드 간의 임상적 연관성을 효과적으로 모델링하지 못한다는 한계가 있습니다.

#Review #Computational Pathology #Foundation Model #Patient-First Representation #Multi-Instance Learning #Self-Supervised Learning #Case Transformer

2026년 3월 30일

[논문리뷰] LLM2Vec-Gen: Generative Embeddings from Large Language Models

기존 입력 중심의 텍스트 임베딩 방식은 다양한 입력이 유사한 출력으로 매핑되어야 하는 '입력-출력 격차' 문제와 LLM의 안전성 및 추론 능력 전이의 한계를 가집니다.

#Review #Large Language Models #Text Embeddings #Generative AI #Self-Supervised Learning #Knowledge Distillation #Semantic Search #Retrieval-Augmented Generation

2026년 3월 11일

[논문리뷰] InfoNCE Induces Gaussian Distribution

본 논문은 InfoNCE 손실 함수 를 사용하여 학습된 표현(representations)이 실제 어떤 분포를 따르는지에 대한 근본적인 질문에 답하고, 이러한 표현들이 가우시안 분포 를 나타내는 이유에 대한 이론적 설명을 제공하는 것을 목표로 합니다.

#Review #Contrastive Learning #InfoNCE Loss #Gaussian Distribution #Representation Learning #Self-Supervised Learning #Hyperspherical Uniformity #Thin-Shell Concentration

2026년 3월 1일

[논문리뷰] Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

이 논문은 전문가 행동 데이터에 대한 의존성으로 인해 발생하는 기존 End-to-End 자율주행(E2E-AD) 시스템의 제한적인 일반화 문제와 롱테일 시나리오에서의 불안전한 결정 문제를 해결하고자 합니다.

#Review #End-to-End Autonomous Driving #World Model Predictive Control #Risk-Aware #Generalization #Self-Supervised Learning #Scenario Exploration #Autonomous Systems

2026년 2월 26일

[논문리뷰] Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

본 논문은 기존 Embodied LLM이 고정된 오라클로서 실패로부터 학습하거나 경험을 축적하지 못하여 반복적인 실수를 초래하는 문제를 해결하고자 합니다.

#Review #Embodied LLMs #Test-Time Adaptation #Reflection-in-Action #Reflection-on-Action #Robotics #Long-Horizon Planning #Policy Gradient #Self-Supervised Learning

2026년 2월 24일

[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

본 논문은 현대 비전 아키텍처가 시각 신호의 본질적인 중복성과 변별 정보의 희소성을 효율적으로 다루지 못한다는 문제의식에서 출발합니다.

#Review #Multimodal AI #Video Understanding #Sparse Attention #Vision Transformer #Codec-Aligned Processing #Self-Supervised Learning #Predictive Coding #Efficient AI

2026년 2월 15일

[논문리뷰] BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

본 논문의 핵심 목표는 고품질 코드-문서 쌍의 부족이라는 문제를 해결하는 것입니다.

#Review #Self-Supervised Learning #Code Generation #Documentation Generation #Back-Translation #Reinforcement Learning #Large Language Models (LLMs)#Code-Documentation Alignment #Low-Resource Languages

2026년 2월 4일

[논문리뷰] UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

본 연구는 통합 멀티모달 모델(UMMs)이 입력 이해는 뛰어나지만, 그 이해를 고품질 생성으로 변환하는 데 어려움을 겪는 현상인 'Conduction Aphasia' 문제를 해결하는 것을 목표로 합니다.

#Review #Unified Multimodal Models #Self-Supervised Learning #Text-to-Image Generation #Multi-Agent Framework #Cognitive Pattern Reconstruction #Cycle-Consistency #Conduction Aphasia

2026년 1월 6일

[논문리뷰] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems

본 논문은 자율 시스템을 위한 진정한 공간 지능(Spatial Intelligence) 을 구축하기 위해 다중 모달(multi-modal) 온보드 센서 데이터 사전 훈련에 대한 포괄적인 로드맵을 제시합니다.

#Review #Multi-modal Pre-training #Autonomous Systems #Spatial Intelligence #Foundation Models #LiDAR-Camera Fusion #Self-Supervised Learning #Generative World Models #Embodied AI

2025년 12월 31일

[논문리뷰] SAM Audio: Segment Anything in Audio

본 논문은 기존의 도메인 특화되거나 단일 모달 프롬프트에 한정된 오디오 분리 모델의 한계를 극복하고자 합니다. 텍스트, 시각, 시간 스팬 프롬프팅을 단일 프레임워크 내에서 통합하여 일반 오디오 분리를 위한 범용 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Audio Source Separation #Foundation Models #Multimodal Prompting #Diffusion Transformers #Flow Matching #Self-Supervised Learning #Reference-Free Evaluation #Audio-Visual Learning

2025년 12월 23일

[논문리뷰] In Pursuit of Pixel Supervision for Visual Pre-training

본 논문은 기존 자기 지도 학습(Self-Supervised Learning) 패러다임이 잠재 공간 목표(latent-space objectives)에 의존하거나 과도한 휴먼 큐레이션을 통해 편향을 도입하는 한계를 지적합니다.

#Review #Pixel Supervision #Self-Supervised Learning #Masked Autoencoders (MAE)#Visual Pre-training #Foundation Models #Representation Learning #Web-Scale Data #Computer Vision

2025년 12월 17일

[논문리뷰] Towards Scalable Pre-training of Visual Tokenizers for Generation

본 논문은 시각 토크나이저(예: VAE)의 잠재 공간이 저수준 정보에 편향되어 고품질 생성으로 이어지지 않는 '사전 학습 스케일링 문제'를 해결하는 것을 목표로 합니다.

#Review #Visual Tokenizers #Pre-training #Latent Diffusion Models #Generative Models #Vision Transformer #Contrastive Learning #Self-Supervised Learning #Scaling Laws

2025년 12월 15일

[논문리뷰] PretrainZero: Reinforcement Active Pretraining

본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Active Learning #Pretraining #Large Language Models #Self-Supervised Learning #Masked Language Modeling #Generalization #Reasoning

2025년 12월 3일

[논문리뷰] InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision

본 논문은 노이즈 많고 제한적인 비디오-텍스트 지도 학습의 한계와 저수준 픽셀 재구성에 머무르거나 숏컷 학습을 유도하는 기존 Masked Video Modeling (MVM) 의 문제점을 해결하고자 합니다.

#Review #Video Foundation Models #Self-Supervised Learning #Masked Video Modeling #Video-Text Supervision-Free #Encoder-Predictor-Decoder #Diffusion Decoder #Semantic Alignment #Latent World Model

2025년 12월 1일

[논문리뷰] UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity

본 논문은 기존 Segment Anything Model (SAM) 계열의 모델들이 가지는 세분화(granularity) 제어의 한계를 극복하고, 인간의 주석 없이 모든 세분화 수준에서 연속적이고 제어 가능한 객체 분할 을 가능하게 하는 것을 목표로 합니다.

#Review #Self-Supervised Learning #Segmentation #Granularity Control #SAM #Foundation Models #Unsupervised Learning #Image Segmentation #Video Segmentation

2025년 11월 17일

[논문리뷰] VideoSSR: Video Self-Supervised Reinforcement Learning

본 연구는 Multimodal Large Language Models (MLLMs)의 비디오 이해 능력을 향상시키기 위해, 기존 비디오 데이터셋의 높은 주석 비용, 복잡성 부족, 그리고 주석 과정에서의 편향성이라는 한계를 극복하는 것을 목표로 합니다.

#Review #Video Understanding #Self-Supervised Learning #Reinforcement Learning #MLLMs #Pretext Tasks #Verifiable Rewards #Data Generation #Temporal Grounding

2025년 11월 11일

[논문리뷰] Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads

이 논문은 대규모 언어 모델(LLM)의 다단계 추론 과정 에서 각 단계의 정확성을 효율적으로 검증하는 문제를 다룹니다.

#Review #LLM Reasoning Verification #Uncertainty Quantification (UQ)#UHeads #Process Reward Models (PRMs)#Chain-of-Thought (CoT)#Self-Supervised Learning #Computational Efficiency #Domain Generalization

2025년 11월 10일

[논문리뷰] Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

본 논문은 자연어 처리에서 성공적인 자기회귀(Autoregressive, AR) 모델이 이미지 생성 시 고수준 시각적 의미 학습에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Autoregressive Models #Image Generation #Self-Supervised Learning #Visual Understanding #Masked Image Modeling #Contrastive Learning #Next-Token Prediction #LlamaGen

2025년 9월 19일

[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?

본 연구는 자연 이미지로만 사전 훈련된 최신 Self-Supervised Vision Transformer인 DINOv3 가 도메인 특화된 사전 훈련 없이 의료 영상 태스크에서 강력하고 통합된 인코더로 활용될 수 있는지 종합적으로 평가하는 것을 목표로 합니다.

#Review #Medical Imaging #Foundation Models #DINOv3 #Self-Supervised Learning #Vision Transformer #2D/3D Classification #Segmentation #Domain Adaptation #Scaling Laws

2025년 9월 9일

[논문리뷰] Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views

본 논문은 3D 포인트 클라우드 학습에서 기존 단일 뷰(single-view) 기반 마스킹 재구성(masked reconstruction) 방식의 한계를 극복하고, 더 다양하고 도전적인 두 뷰(two-view) 기반 사전 학습 패러다임 을 탐구하는 것을 목표로 합니다.

#Review #Point Cloud Learning #Self-Supervised Learning #Cross Reconstruction #Decoupled Views #Generative Models #Positional Encoding #3D Vision

2025년 9월 3일

[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision

의료 영상 분야에서 기존의 2D, 3D, 비디오 기반 데이터에 파편화된 모델 아키텍처 및 훈련 전략의 한계를 극복하고, 단일한 시각적 표현 학습 프레임워크를 통해 제로샷 멀티모달 의료 영상 검색 을 가능하게 하는 것이 목표입니다.

#Review #Medical Image Retrieval #Self-Supervised Learning #Multimodal #Zero-shot #Foundation Models #MAE #SimDINO #Vision Transformer

2025년 9월 3일

[논문리뷰] Mobile-Agent-v3: Foundamental Agents for GUI Automation

본 논문은 다양한 GUI 환경(데스크톱, 모바일)에서 인간의 지시에 따라 작업을 자동화하는 데 있어 기존 모델들의 한계(낮은 일반화 능력, 동적 환경 적응의 어려움)를 극복하고자 합니다.

#Review #GUI Automation #Multimodal Agents #Foundational Models #Reinforcement Learning #Large Language Models #Cross-Platform #Self-Supervised Learning

2025년 8월 22일

[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

본 논문은 대규모 언어 모델(LLMs)의 자기 검증 신뢰성을 높여 비용이 많이 드는 사람의 주석이나 검증 가능한 답변에 대한 외부 의존성 없이 성능을 최적화하는 것을 목표로 합니다.

#Review #LLM Optimization #Self-Verification #Dual Learning #Preference Optimization #Self-Supervised Learning #Mathematical Reasoning #Multilingual Translation #RLHF

2025년 8월 21일

[논문리뷰] Representing Speech Through Autoregressive Prediction of Cochlear Tokens

본 논문은 인간의 청각 처리 계층에서 영감을 받아, 유연하고 효율적으로 음성 정보를 이해하고 상호작용하는 인공 신경망 모델을 개발하는 것을 목표로 합니다.

#Review #Speech Representation Learning #Autoregressive Models #Cochlear Tokens #Biologically Inspired AI #Self-Supervised Learning #Audio Processing #Transformer Networks

2025년 8월 19일

[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

이 논문은 픽셀 수준 주석의 높은 비용 과 기존 훈련 방식의 한계 로 인해 GUI 접지(grounding)의 성능 확장성에 제약이 있다는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Test-Time Scaling #Reinforcement Learning #Region Consistency #Spatial Voting #Self-Supervised Learning #Vision-Language Models

2025년 8월 13일

[논문리뷰] Beyond Linear Bottlenecks: Spline-Based Knowledge Distillation for Culturally Diverse Art Style Classification

본 논문은 전문가가 라벨링한 데이터의 부족과 복잡하고 비선형적인 스타일 요소의 상호작용으로 인해 어려움을 겪는 예술 스타일 분류의 문제를 해결하고자 합니다.

#Review #Kolmogorov-Arnold Networks #Knowledge Distillation #Art Style Classification #Self-Supervised Learning #Spline-Based Activation #Dual-Teacher #Gram Matrix

2025년 8월 2일

[논문리뷰] Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

본 연구는 단일 모달리티 학습의 한계를 넘어, 인간의 다감각 시너지 학습에서 영감을 받아 2D 이미지 와 3D 포인트 클라우드 의 공동 자기 지도 학습을 통해 더 풍부하고 일관된 공간 표현 을 습득하는 것을 목표로 합니다.

#Review #Self-Supervised Learning #2D-3D Fusion #Spatial Representation #Point Cloud #Image Features #Multimodal Learning #Semantic Segmentation #LoRA

2025년 10월 28일

[논문리뷰] Heptapod: Language Modeling on Visual Signals

이 논문은 시각 생성 모델에서 외부 의미론적 정보 주입 및 CFG(Classifier-Free Guidance)에 대한 의존성을 비판하며, 재구성 중심의 토크나이저 와 Transformer의 내재적 의미 학습 이라는 언어 모델링의 기본 원칙으로 회귀하는 것을 목표로 합니다.

#Review #Autoregressive Models #Image Generation #Language Modeling #Causal Transformer #2D Distribution Prediction #Visual Tokenization #Self-Supervised Learning #Generative Models

2025년 10월 9일