#Pretraining

19개의 포스트

[논문리뷰] Mellum2 Technical Report

Marko Kojic이 arXiv에 게시한 'Mellum2 Technical Report' 논문에 대한 자세한 리뷰입니다.

#Review #LLM #Pretraining #Model Architecture #Technical Report #Evaluation #Training Pipeline

2026년 5월 31일

[논문리뷰] Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR

본 논문은 Muon 옵티마이저가 사전 학습(Pretraining) 단계를 넘어선 하류 태스크(Downstream tasks), 특히 VLA 및 RLVR 환경에서 성능 저하를 보이는 근본적인 이유를 규명합니다.

#Review #Muon #Pretraining #Spectral Analysis #VLA #RLVR #Optimization #Deep Learning

2026년 5월 24일

[논문리뷰] Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

본 논문은 GUI 에이전트의 일반화 성능을 저해하는 대규모 학습 데이터의 부족 문제를 해결하고자 합니다. 기존 연구들은 고비용의 수동 주석 데이터셋이나 제한적인 시뮬레이션 환경에 의존하여 확장성에 한계를 보입니다.

#Review #GUI Agent #Pretraining #Interaction Trajectory #Multimodal Large Language Models #Scalable Data Synthesis #Action Grounding

2026년 5월 20일

[논문리뷰] daVinci-LLM:Towards the Science of Pretraining

현재 LLM 생태계는 상업적 모델의 폐쇄성과 학계 모델의 컴퓨팅 자원 부족이라는 구조적 역설(Structural Paradox)에 직면해 있습니다.

#Review #Pretraining #Data Darwinism #LLM #Transparency #Data Processing #Scaling Laws #Reasoning

2026년 3월 31일

[논문리뷰] Chain of World: World Model Thinking in Latent Motion

기존 VLA(Vision-Language-Action) 모델이 예측 능력 부족과 시각적 중복성 재구성에 따른 비효율성을 보이는 한계를 극복하고, 잠재 액션 모델의 연속적인 동적 모델링 및 세계 지식 부족 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #World Models #Latent Motion #Embodied Intelligence #Temporal Reasoning #Disentangled Representation #Robotics #Pretraining

2026년 3월 3일

[논문리뷰] ArXiv-to-Model: A Practical Study of Scientific LM Training

본 연구는 raw arXiv LaTeX 소스 를 활용하여 도메인 특화 과학 언어 모델(Scientific LM)을 훈련하는 실제적이고 투명한 과정을 문서화하는 것을 목표로 합니다.

#Review #Scientific Language Models #LLM Training #ArXiv #LaTeX Processing #Tokenization #Resource Constraints #Pretraining #Data Engineering

2026년 2월 19일

[논문리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

기존 VLA 정책의 잠재-액션 목표가 픽셀 변화에 고착되어 외형 편향, 불필요한 움직임, 정보 누출에 취약한 문제를 해결하는 것이 목표입니다. 본 연구는 액션 관련 상태 전이 를 학습하고 카메라 움직임 및 배경 변화에 견고한 동역학 추상화 를 제공하는 사전 훈련 프레임워크를 개발하고자 합니다.

#Review #Vision-Language-Action (VLA)#Latent World Model #JEPA #Pretraining #Robot Learning #Generalization #Robustness #Human Videos

2026년 2월 10일

[논문리뷰] Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

대규모 사전 훈련(large-scale pretraining)과 효율적인 미세 조정(efficient finetuning) 사이의 간극을 줄여 휴머노이드 로봇 제어의 샘플 효율성과 안전성을 향상 시키는 것을 목표로 합니다.

#Review #Humanoid Control #Reinforcement Learning #SAC #Model-Based RL #Pretraining #Finetuning #Physics-Informed World Model #Sim-to-Real Transfer

2026년 2월 9일

[논문리뷰] Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models

본 논문은 멀티모달 대조 학습(multimodal contrastive learning)에서 시각 및 언어 표현 정렬에도 불구하고 발생하는 Modality Gap 이라는 기하학적 이상 현상을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Modality Gap #Subspace Alignment #Unpaired Data #Representation Learning #Pretraining #Geometric Alignment

2026년 2월 9일

[논문리뷰] MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

이 논문은 이질적인 센서 노이즈, 카메라 의존적 편향, 그리고 노이즈가 많은 교차 소스 3D 데이터의 모호성으로 인해 확장이 어려웠던 Metric Depth Estimation 의 문제를 해결하고자 합니다.

#Review #Metric Depth Estimation #Pretraining #Foundation Models #Sparse Prompts #Heterogeneous Data #Zero-Shot Learning #Multi-modal Learning

2026년 1월 29일

[논문리뷰] Pretraining Frame Preservation in Autoregressive Video Memory Compression

본 논문은 오토회귀 비디오 생성 모델에서 발생하는 긴 비디오 컨텍스트 처리의 한계 와 컨텍스트 품질 및 길이 간의 트레이드오프 문제를 해결하고자 합니다.

#Review #Video Compression #Autoregressive Models #Memory Compression #Frame Preservation #Pretraining #Video Generation #Diffusion Models #Long-Range Consistency

2025년 12월 31일

[논문리뷰] PretrainZero: Reinforcement Active Pretraining

본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Active Learning #Pretraining #Large Language Models #Self-Supervised Learning #Masked Language Modeling #Generalization #Reasoning

2025년 12월 3일

[논문리뷰] iFlyBot-VLA Technical Report

iFlyBot-VLA는 장기적인 로봇 조작 작업을 위한 대규모 Vision-Language-Action (VLA) 모델 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #Imitation Learning #Latent Actions #Diffusion Models #Dual-Arm Manipulation #Pretraining #Flow-Matching

2025년 11월 9일

[논문리뷰] Why Language Models Hallucinate

본 논문은 대규모 언어 모델(LLM)이 '환각' 현상, 즉 그럴듯하지만 틀린 정보를 자신감 있게 생성하는 이유를 통계적으로 분석하고, 이러한 문제가 최신 모델에서도 지속되는 근본적인 원인을 밝히는 것을 목표로 합니다.

#Review #Language Models #Hallucination #Pretraining #Post-training #Evaluation Metrics #Binary Classification #Uncertainty Quantification #Calibration

2025년 9월 8일

[논문리뷰] Rethinking Visual Intelligence: Insights from Video Pretraining

Large Language Models (LLMs)의 성공에도 불구하고 시각 도메인에서 구성적 이해, 샘플 효율성, 범용 문제 해결 의 한계가 지속되고 있습니다.

#Review #Video Diffusion Models #Visual Intelligence #Pretraining #Foundation Models #Low-resource Learning #Inductive Biases #Visual Reasoning #Image-to-Image Tasks

2025년 10월 29일

[논문리뷰] ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

이 연구는 영어에 주로 집중되어 있던 기존 스케일링 법칙 연구의 한계를 넘어, 다국어 사전 학습, 미세 조정 및 추론 전반에 걸쳐 스케일링 법칙을 포괄적으로 이해하고 모델링하는 것을 목표로 합니다.

#Review #Multilingual LLMs #Scaling Laws #Transfer Learning #Curse of Multilinguality #Pretraining #Finetuning #Language Models #Adaptive Scaling

2025년 10월 29일

[논문리뷰] X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

다양한 로봇 플랫폼과 이질적인 데이터셋 전반에서 효과적인 훈련을 통해 일반화된 Vision-Language-Action (VLA) 모델을 구축하는 것이 목표입니다.

#Review #Vision-Language-Action (VLA) Models #Soft Prompts #Transformer #Cross-Embodiment #Robotics #Pretraining #Domain Adaptation #Flow Matching

2025년 10월 16일

[논문리뷰] KORMo: Korean Open Reasoning Model for Everyone

본 논문은 한국어와 영어를 지원하는 최초의 완전 공개(Fully Open) 이중 언어 대규모 언어 모델(LLM) 인 KORMo 를 구축하는 것을 목표로 합니다.

#Review #Large Language Model #Korean #Bilingual #Synthetic Data #Fully Open Model #Tokenizer #Reasoning #Pretraining #Instruction Tuning

2025년 10월 13일

[논문리뷰] Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 극대화하기 위해 사전 훈련(pretraining)과 지도 미세 조정(SFT) 단계 간에 추론 데이터를 최적으로 할당하는 방법을 체계적으로 탐구하는 것을 목표로 합니다.

#Review #Large Language Models #Pretraining #Supervised Fine-tuning #Reasoning Data #Data Allocation #Diversity #Quality #Reinforcement Learning

2025년 10월 7일