#Post-training

16개의 포스트

[논문리뷰] Proxy Exploration and Reusable Guidance: A Modular LLM Post-Training Paradigm via Proxy-Guided Update Signals

본 논문은 기존 LLM 사후 학습 방식이 탐색(exploration)과 분포 정렬(distribution alignment)을 강하게 결합하여 컴퓨팅 효율성과 확장성을 저해하는 문제를 해결합니다.

#Review #Post-training #Proxy Exploration #Update Signal Transfer #LLM Alignment #Modular Training #Weak-to-Strong Generalization

2026년 7월 13일

[논문리뷰] Trust Region Policy Distillation

본 논문은 기존 On-Policy Distillation (OPD) 방식이 가진 구조적 불안정성과 낮은 샘플 효율성 문제를 해결하기 위해 고안되었습니다.

#Review #On-Policy Distillation #Trust Region #Policy Gradient #Proximal Teacher #Gradient Variance #Mathematical Reasoning #Post-training

2026년 7월 12일

[논문리뷰] CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

본 논문은 LLM의 추론 후속 훈련 과정에서 발생하는 콜드 스타트 문제, 제한된 도메인 커버리지, 주석 병목 현상 이라는 세 가지 핵심 데이터 관련 문제를 해결하는 것을 목표로 합니다. 특히, 인간 주석 없이 컴팩트하면서도 일반화 가능한 고품질 합성 추론 데이터셋 을 구축하여 이 문제를 해결하고자 합니다.

#Review #Synthetic Data #LLM Reasoning #Chain-of-Thought #Data Efficiency #Post-training #Generalization #Quality Control #Domain Coverage

2026년 3월 2일

[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models

본 논문은 상호작용적 비디오 기반 세계 모델(world models)의 장기적인 탐색 정확도와 일관성을 향상시키기 위해, 강화 학습(RL) 기반의 후처리 훈련 프레임워크인 WorldCompass 를 제안합니다.

#Review #Reinforcement Learning #World Models #Video Generation #Autoregressive Generation #Long-Horizon #Post-training #Diffusion Models #Reward Functions

2026년 2월 9일

[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

이 논문은 대규모 언어 모델(LLM)의 후처리 최적화 과정에서 발생하는 성능 포화 병목 현상 을 해결하는 것을 목표로 합니다.

#Review #Weak-Driven Learning #LLM Optimization #Post-training #Gradient Amplification #Curriculum Learning #Knowledge Distillation #Mathematical Reasoning #Code Generation

2026년 2월 9일

[논문리뷰] Reinforced Attention Learning

본 논문은 기존 RL 기반 LLM 후처리 방식이 MLLM에서 시각적 추론을 위한 '생성할 내용'에만 초점을 맞추어 제한적인 성능 향상을 보이거나 심지어 성능을 저하시키는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Multimodal LLMs #Attention Mechanisms #Policy Gradient #Knowledge Distillation #Visual Grounding #Post-training

2026년 2월 5일

[논문리뷰] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

본 논문은 대규모 언어 모델(LLM)이 기본적으로 가지는 'AI Assistant' 페르소나의 구조를 심층적으로 탐구하고, 이 페르소나가 특정 상황에서 벗어나 부적절하거나 유해한 행동으로 이어지는 '페르소나 드리프트' 현상을 해결하는 것을 목표로 합니다.

#Review #Language Models #Persona Control #Activation Steering #Persona Drift #Alignment #Post-training #Interpretability #Safety

2026년 1월 19일

[논문리뷰] STEP3-VL-10B Technical Report

본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.

#Review #Multimodal Large Language Models #Vision-Language Models #Reinforcement Learning #Parallel Coordinated Reasoning #Model Efficiency #Foundation Models #Pre-training #Post-training

2026년 1월 15일

[논문리뷰] Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

본 논문은 방대한 자원과 시간이 소요되는 LLM 훈련의 한계를 극복하고, 기존의 균일 가중치 모델 수핑(model souping) 및 임의적인 모델 선택의 단점을 해결하고자 합니다.

#Review #Model Souping #Large Language Models #Weighted Averaging #Benchmark Optimization #State-of-the-Art #Category Experts #Parameter Averaging #Post-training

2025년 11월 17일

[논문리뷰] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

MLLM(Multimodal Large Language Models)의 추론 능력 향상을 목표로 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Post-training #Reasoning #Dual-Reward System #Thinking Reward #Judging Reward #Hallucination Reduction

2025년 11월 9일

[논문리뷰] Visual Jigsaw Post-Training Improves MLLMs

본 논문은 기존 MLLM(Multimodal Large Language Models)의 텍스트 중심 후속 훈련 패러다임이 시각 신호에 대한 세밀한 이해를 과소평가한다는 문제점을 해결하고자 합니다.

#Review #MLLMs #Post-training #Self-supervised Learning #Visual Understanding #Jigsaw Puzzles #RLVR #Multimodal Perception #Spatial Reasoning

2025년 9월 30일

[논문리뷰] StateX: Enhancing RNN Recall via Post-training State Expansion

본 논문은 Transformer 대비 긴 컨텍스트 처리 효율이 높은 RNN 계열 모델들이 고정된 크기의 recurrent state 로 인해 장문 컨텍스트에서의 정보 회상 능력(recall ability) 이 떨어지는 문제를 해결하고자 합니다.

#Review #RNN #State Expansion #Post-training #Long-context Recall #Linear Attention #State Space Models #GLA #Mamba2

2025년 9월 29일

[논문리뷰] Reconstruction Alignment Improves Unified Multimodal Models

논문은 통합 멀티모달 모델(UMM)이 이미지-텍스트 쌍으로 훈련될 때 캡션의 희소성으로 인해 미세한 시각적 디테일을 놓치고, 이해와 생성 간의 정렬이 불완전하다는 문제를 해결하고자 합니다.

#Review #Unified Multimodal Models #Image Generation #Image Editing #Post-training #Self-supervised Learning #Reconstruction Alignment #Visual Embeddings

2025년 9월 10일

[논문리뷰] Why Language Models Hallucinate

본 논문은 대규모 언어 모델(LLM)이 '환각' 현상, 즉 그럴듯하지만 틀린 정보를 자신감 있게 생성하는 이유를 통계적으로 분석하고, 이러한 문제가 최신 모델에서도 지속되는 근본적인 원인을 밝히는 것을 목표로 합니다.

#Review #Language Models #Hallucination #Pretraining #Post-training #Evaluation Metrics #Binary Classification #Uncertainty Quantification #Calibration

2025년 9월 8일

[논문리뷰] Jointly Reinforcing Diversity and Quality in Language Model Generations

대규모 언어 모델(LM)의 후처리 과정에서 발생하는 다양성 감소 문제를 해결하는 것이 주요 목표입니다. 기존 후처리 방식이 정확도와 유용성에 초점을 맞춰 출력 분포가 과도하게 좁아지고 아이디어 범위가 축소되는 현상을 방지하며, 응답 품질과 의미론적 다양성을 동시에 최적화하는 방법을 제시하고자 합니다.

#Review #Reinforcement Learning #Language Models #Diversity Optimization #Quality Enhancement #Semantic Clustering #Post-training #Generative AI

2025년 9월 3일

[논문리뷰] Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

본 논문은 비디오 이해의 복잡한 시공간적 관계, 장기 의존성, 다중 모달 증거 통합 추론 문제를 해결하기 위해 Video-Large Multimodal Models (Video-LMMs) 의 '포스트 트레이닝(Post-training)' 방법론을 최초로 포괄적으로 분석하는 것을 목표로 합니다.

#Review #Video Reasoning #Large Multimodal Models (LMMs)#Post-training #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Test-Time Scaling (TTS)#Chain-of-Thought (CoT)

2025년 10월 7일