[논문리뷰] The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement본 논문은 현대의 RLHF 파이프라인에서 발생하는 정적 RM 학습 데이터의 한계와 정책 드리프트(distribution shift) 문제를 해결하고자 한다.#Review#RLHF#Reward Model#Self-Supervised Learning#On-Policy Feedback#Value-Anchored#Minimax Optimization#Policy Alignment2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence본 논문은 2D 기반 Foundation Model들이 가지는 3D 인지 능력 부족으로 인한 semantic correspondence의 구조적 오류를 해결하고자 합니다.#Review#Semantic Correspondence#3D Foundation Models#PartField#Geodesic Filtering#Self-Supervised Learning#Render-and-Compare2026년 5월 28일댓글 수 로딩 중
[논문리뷰] TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders본 논문은 Deep Compression 오토인코더에서 발생하는 잠재 표현의 붕괴(Latent Representation Collapse) 문제를 해결하여 생성 성능을 개선하고자 합니다.#Review#Vision Transformer#Deep Compression#Autoencoder#Latent Diffusion Models#Token Scaling#Staged Token Compression#Self-Supervised Learning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] MOOZY: A Patient-First Foundation Model for Computational Pathology현재 병리 인공지능 분야의 파운데이션 모델들은 주로 Slide-centric 구조에 머물러 있어, 한 환자의 여러 슬라이드 간의 임상적 연관성을 효과적으로 모델링하지 못한다는 한계가 있습니다.#Review#Computational Pathology#Foundation Model#Patient-First Representation#Multi-Instance Learning#Self-Supervised Learning#Case Transformer2026년 3월 30일댓글 수 로딩 중
[논문리뷰] LLM2Vec-Gen: Generative Embeddings from Large Language Models기존 입력 중심의 텍스트 임베딩 방식은 다양한 입력이 유사한 출력으로 매핑되어야 하는 '입력-출력 격차' 문제와 LLM의 안전성 및 추론 능력 전이의 한계를 가집니다.#Review#Large Language Models#Text Embeddings#Generative AI#Self-Supervised Learning#Knowledge Distillation#Semantic Search#Retrieval-Augmented Generation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] InfoNCE Induces Gaussian Distribution본 논문은 InfoNCE 손실 함수 를 사용하여 학습된 표현(representations)이 실제 어떤 분포를 따르는지에 대한 근본적인 질문에 답하고, 이러한 표현들이 가우시안 분포 를 나타내는 이유에 대한 이론적 설명을 제공하는 것을 목표로 합니다.#Review#Contrastive Learning#InfoNCE Loss#Gaussian Distribution#Representation Learning#Self-Supervised Learning#Hyperspherical Uniformity#Thin-Shell Concentration2026년 3월 1일댓글 수 로딩 중
[논문리뷰] Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving이 논문은 전문가 행동 데이터에 대한 의존성으로 인해 발생하는 기존 End-to-End 자율주행(E2E-AD) 시스템의 제한적인 일반화 문제와 롱테일 시나리오에서의 불안전한 결정 문제를 해결하고자 합니다.#Review#End-to-End Autonomous Driving#World Model Predictive Control#Risk-Aware#Generalization#Self-Supervised Learning#Scenario Exploration#Autonomous Systems2026년 2월 26일댓글 수 로딩 중
[논문리뷰] Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs본 논문은 기존 Embodied LLM이 고정된 오라클로서 실패로부터 학습하거나 경험을 축적하지 못하여 반복적인 실수를 초래하는 문제를 해결하고자 합니다.#Review#Embodied LLMs#Test-Time Adaptation#Reflection-in-Action#Reflection-on-Action#Robotics#Long-Horizon Planning#Policy Gradient#Self-Supervised Learning2026년 2월 24일댓글 수 로딩 중
[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence본 논문은 현대 비전 아키텍처가 시각 신호의 본질적인 중복성과 변별 정보의 희소성을 효율적으로 다루지 못한다는 문제의식에서 출발합니다.#Review#Multimodal AI#Video Understanding#Sparse Attention#Vision Transformer#Codec-Aligned Processing#Self-Supervised Learning#Predictive Coding#Efficient AI2026년 2월 15일댓글 수 로딩 중
[논문리뷰] BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation본 논문의 핵심 목표는 고품질 코드-문서 쌍의 부족이라는 문제를 해결하는 것입니다.#Review#Self-Supervised Learning#Code Generation#Documentation Generation#Back-Translation#Reinforcement Learning#Large Language Models (LLMs)#Code-Documentation Alignment#Low-Resource Languages2026년 2월 4일댓글 수 로딩 중
[논문리뷰] UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision본 연구는 통합 멀티모달 모델(UMMs)이 입력 이해는 뛰어나지만, 그 이해를 고품질 생성으로 변환하는 데 어려움을 겪는 현상인 'Conduction Aphasia' 문제를 해결하는 것을 목표로 합니다.#Review#Unified Multimodal Models#Self-Supervised Learning#Text-to-Image Generation#Multi-Agent Framework#Cognitive Pattern Reconstruction#Cycle-Consistency#Conduction Aphasia2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems본 논문은 자율 시스템을 위한 진정한 공간 지능(Spatial Intelligence) 을 구축하기 위해 다중 모달(multi-modal) 온보드 센서 데이터 사전 훈련에 대한 포괄적인 로드맵을 제시합니다.#Review#Multi-modal Pre-training#Autonomous Systems#Spatial Intelligence#Foundation Models#LiDAR-Camera Fusion#Self-Supervised Learning#Generative World Models#Embodied AI2025년 12월 31일댓글 수 로딩 중
[논문리뷰] SAM Audio: Segment Anything in Audio본 논문은 기존의 도메인 특화되거나 단일 모달 프롬프트에 한정된 오디오 분리 모델의 한계를 극복하고자 합니다. 텍스트, 시각, 시간 스팬 프롬프팅을 단일 프레임워크 내에서 통합하여 일반 오디오 분리를 위한 범용 파운데이션 모델 을 개발하는 것을 목표로 합니다.#Review#Audio Source Separation#Foundation Models#Multimodal Prompting#Diffusion Transformers#Flow Matching#Self-Supervised Learning#Reference-Free Evaluation#Audio-Visual Learning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] In Pursuit of Pixel Supervision for Visual Pre-training본 논문은 기존 자기 지도 학습(Self-Supervised Learning) 패러다임이 잠재 공간 목표(latent-space objectives)에 의존하거나 과도한 휴먼 큐레이션을 통해 편향을 도입하는 한계를 지적합니다.#Review#Pixel Supervision#Self-Supervised Learning#Masked Autoencoders (MAE)#Visual Pre-training#Foundation Models#Representation Learning#Web-Scale Data#Computer Vision2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Towards Scalable Pre-training of Visual Tokenizers for Generation본 논문은 시각 토크나이저(예: VAE)의 잠재 공간이 저수준 정보에 편향되어 고품질 생성으로 이어지지 않는 '사전 학습 스케일링 문제'를 해결하는 것을 목표로 합니다.#Review#Visual Tokenizers#Pre-training#Latent Diffusion Models#Generative Models#Vision Transformer#Contrastive Learning#Self-Supervised Learning#Scaling Laws2025년 12월 15일댓글 수 로딩 중
[논문리뷰] PretrainZero: Reinforcement Active Pretraining본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.#Review#Reinforcement Learning#Active Learning#Pretraining#Large Language Models#Self-Supervised Learning#Masked Language Modeling#Generalization#Reasoning2025년 12월 3일댓글 수 로딩 중
[논문리뷰] InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision본 논문은 노이즈 많고 제한적인 비디오-텍스트 지도 학습의 한계와 저수준 픽셀 재구성에 머무르거나 숏컷 학습을 유도하는 기존 Masked Video Modeling (MVM) 의 문제점을 해결하고자 합니다.#Review#Video Foundation Models#Self-Supervised Learning#Masked Video Modeling#Video-Text Supervision-Free#Encoder-Predictor-Decoder#Diffusion Decoder#Semantic Alignment#Latent World Model2025년 12월 1일댓글 수 로딩 중
[논문리뷰] UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity본 논문은 기존 Segment Anything Model (SAM) 계열의 모델들이 가지는 세분화(granularity) 제어의 한계를 극복하고, 인간의 주석 없이 모든 세분화 수준에서 연속적이고 제어 가능한 객체 분할 을 가능하게 하는 것을 목표로 합니다.#Review#Self-Supervised Learning#Segmentation#Granularity Control#SAM#Foundation Models#Unsupervised Learning#Image Segmentation#Video Segmentation2025년 11월 17일댓글 수 로딩 중
[논문리뷰] VideoSSR: Video Self-Supervised Reinforcement Learning본 연구는 Multimodal Large Language Models (MLLMs)의 비디오 이해 능력을 향상시키기 위해, 기존 비디오 데이터셋의 높은 주석 비용, 복잡성 부족, 그리고 주석 과정에서의 편향성이라는 한계를 극복하는 것을 목표로 합니다.#Review#Video Understanding#Self-Supervised Learning#Reinforcement Learning#MLLMs#Pretext Tasks#Verifiable Rewards#Data Generation#Temporal Grounding2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads이 논문은 대규모 언어 모델(LLM)의 다단계 추론 과정 에서 각 단계의 정확성을 효율적으로 검증하는 문제를 다룹니다.#Review#LLM Reasoning Verification#Uncertainty Quantification (UQ)#UHeads#Process Reward Models (PRMs)#Chain-of-Thought (CoT)#Self-Supervised Learning#Computational Efficiency#Domain Generalization2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation본 논문은 자연어 처리에서 성공적인 자기회귀(Autoregressive, AR) 모델이 이미지 생성 시 고수준 시각적 의미 학습에 어려움을 겪는 문제를 해결하고자 합니다.#Review#Autoregressive Models#Image Generation#Self-Supervised Learning#Visual Understanding#Masked Image Modeling#Contrastive Learning#Next-Token Prediction#LlamaGen2025년 9월 19일댓글 수 로딩 중
[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?본 연구는 자연 이미지로만 사전 훈련된 최신 Self-Supervised Vision Transformer인 DINOv3 가 도메인 특화된 사전 훈련 없이 의료 영상 태스크에서 강력하고 통합된 인코더로 활용될 수 있는지 종합적으로 평가하는 것을 목표로 합니다.#Review#Medical Imaging#Foundation Models#DINOv3#Self-Supervised Learning#Vision Transformer#2D/3D Classification#Segmentation#Domain Adaptation#Scaling Laws2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views본 논문은 3D 포인트 클라우드 학습에서 기존 단일 뷰(single-view) 기반 마스킹 재구성(masked reconstruction) 방식의 한계를 극복하고, 더 다양하고 도전적인 두 뷰(two-view) 기반 사전 학습 패러다임 을 탐구하는 것을 목표로 합니다.#Review#Point Cloud Learning#Self-Supervised Learning#Cross Reconstruction#Decoupled Views#Generative Models#Positional Encoding#3D Vision2025년 9월 3일댓글 수 로딩 중
[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision의료 영상 분야에서 기존의 2D, 3D, 비디오 기반 데이터에 파편화된 모델 아키텍처 및 훈련 전략의 한계를 극복하고, 단일한 시각적 표현 학습 프레임워크를 통해 제로샷 멀티모달 의료 영상 검색 을 가능하게 하는 것이 목표입니다.#Review#Medical Image Retrieval#Self-Supervised Learning#Multimodal#Zero-shot#Foundation Models#MAE#SimDINO#Vision Transformer2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Mobile-Agent-v3: Foundamental Agents for GUI Automation본 논문은 다양한 GUI 환경(데스크톱, 모바일)에서 인간의 지시에 따라 작업을 자동화하는 데 있어 기존 모델들의 한계(낮은 일반화 능력, 동적 환경 적응의 어려움)를 극복하고자 합니다.#Review#GUI Automation#Multimodal Agents#Foundational Models#Reinforcement Learning#Large Language Models#Cross-Platform#Self-Supervised Learning2025년 8월 22일댓글 수 로딩 중
[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization본 논문은 대규모 언어 모델(LLMs)의 자기 검증 신뢰성을 높여 비용이 많이 드는 사람의 주석이나 검증 가능한 답변에 대한 외부 의존성 없이 성능을 최적화하는 것을 목표로 합니다.#Review#LLM Optimization#Self-Verification#Dual Learning#Preference Optimization#Self-Supervised Learning#Mathematical Reasoning#Multilingual Translation#RLHF2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Representing Speech Through Autoregressive Prediction of Cochlear Tokens본 논문은 인간의 청각 처리 계층에서 영감을 받아, 유연하고 효율적으로 음성 정보를 이해하고 상호작용하는 인공 신경망 모델을 개발하는 것을 목표로 합니다.#Review#Speech Representation Learning#Autoregressive Models#Cochlear Tokens#Biologically Inspired AI#Self-Supervised Learning#Audio Processing#Transformer Networks2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency이 논문은 픽셀 수준 주석의 높은 비용 과 기존 훈련 방식의 한계 로 인해 GUI 접지(grounding)의 성능 확장성에 제약이 있다는 문제를 해결하고자 합니다.#Review#GUI Grounding#Test-Time Scaling#Reinforcement Learning#Region Consistency#Spatial Voting#Self-Supervised Learning#Vision-Language Models2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Beyond Linear Bottlenecks: Spline-Based Knowledge Distillation for Culturally Diverse Art Style Classification본 논문은 전문가가 라벨링한 데이터의 부족과 복잡하고 비선형적인 스타일 요소의 상호작용으로 인해 어려움을 겪는 예술 스타일 분류의 문제를 해결하고자 합니다.#Review#Kolmogorov-Arnold Networks#Knowledge Distillation#Art Style Classification#Self-Supervised Learning#Spline-Based Activation#Dual-Teacher#Gram Matrix2025년 8월 2일댓글 수 로딩 중
[논문리뷰] Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations본 연구는 단일 모달리티 학습의 한계를 넘어, 인간의 다감각 시너지 학습에서 영감을 받아 2D 이미지 와 3D 포인트 클라우드 의 공동 자기 지도 학습을 통해 더 풍부하고 일관된 공간 표현 을 습득하는 것을 목표로 합니다.#Review#Self-Supervised Learning#2D-3D Fusion#Spatial Representation#Point Cloud#Image Features#Multimodal Learning#Semantic Segmentation#LoRA2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Heptapod: Language Modeling on Visual Signals이 논문은 시각 생성 모델에서 외부 의미론적 정보 주입 및 CFG(Classifier-Free Guidance)에 대한 의존성을 비판하며, 재구성 중심의 토크나이저 와 Transformer의 내재적 의미 학습 이라는 언어 모델링의 기본 원칙으로 회귀하는 것을 목표로 합니다.#Review#Autoregressive Models#Image Generation#Language Modeling#Causal Transformer#2D Distribution Prediction#Visual Tokenization#Self-Supervised Learning#Generative Models2025년 10월 9일댓글 수 로딩 중