#Post-Training

16개의 포스트

[논문리뷰] Self-Improving Language Models with Bidirectional Evolutionary Search

본 논문은 기존의 LLM 추론 및 학습 방식인 Best-of-N sampling과 Tree search가 가진 근본적인 제약 사항을 해결하고자 합니다 .

#Review #Large Language Models #Evolutionary Search #Bidirectional Search #Goal Decomposition #Post-Training #Inference Scaling

2026년 5월 27일

[논문리뷰] From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

본 연구는 기존 VLM이 Perception과 Reasoning 기능을 동시에 학습함으로써 발생하는 성능 저하와 최적화 불균형 문제를 해결하기 위해 시작되었습니다.

#Review #Vision-Language Models #Post-Training #Perception #Reasoning #Decoupling #Multimodal Learning

2026년 5월 24일

[논문리뷰] Revisiting DAgger in the Era of LLM-Agents

본 논문은 장기 상호작용을 수행하는 LLM 에이전트의 사후 학습(Post-training) 단계에서 발생하는 고질적인 분포 불일치 문제를 해결하고자 합니다.

#Review #LLM-Agents #DAgger #Covariate Shift #Multi-Turn Interaction #Post-Training #Imitation Learning

2026년 5월 13일

[논문리뷰] WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

본 논문은 통합적인 End-to-End Spoken Dialogue Model의 의미론적 지능(Intelligence, IQ)과 음성 표현력(Expressiveness, EQ)을 동시에 향상시키는 문제를 해결하고자 한다.

#Review #Spoken Dialogue Models #Post-Training #Reinforcement Learning #Preference Optimization #Modality Alignment #End-to-End #Acoustic Expressiveness

2026년 4월 22일

[논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training

본 논문은 오직 Visually Grounded 질문만을 사용하여 모델을 post-training하는 VidGround 프레임워크를 제안한다. 저자들은 GPT-5-mini와 같은 강력한 언어 모델을 사용하여 텍스트만으로 답변 가능한 TA 질문을 필터링하고, 나머지 VG 질문만을 학습 데이터로 선별하였다.

#Review #Vision-Language Models #Video Understanding #Post-Training #Linguistic Bias #Reinforcement Learning #Data Curation #Visually Grounded Reasoning

2026년 4월 7일

[논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

본 논문은 dLLM을 위한 통합 후학습 및 평가 프레임워크인 DARE (dLLMs Alignment and Reinforcement Executor)를 제안한다. DARE는 verl과 OpenCompass를 기반으로 하며, 다양한 모델 패밀리(MDLM 및 BDLM)를 동일한 실행 스택에서 처리할 수 있도록 설계되었다 .

#Review #Diffusion Large Language Models #Post-Training #Reinforcement Learning #Unified Framework #Systems Optimization

2026년 4월 7일

[논문리뷰] Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

대규모 언어 모델(LLM)의 후처리 훈련에서 데이터 다양성이 중요함에도 불구하고, 기존 텍스트 기반 또는 일반 임베딩 기반 다양성 지표는 태스크 관련 특징을 제대로 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Data Synthesis #LLMs #Feature Space #Sparse Autoencoders #Diversity Metrics #Post-Training #Instruction Tuning #Feature Activation Coverage

2026년 2월 15일

[논문리뷰] SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

이 논문은 기존 LLM 기반 소프트웨어 엔지니어링 에이전트의 불투명성과 재현성 부족, 그리고 복잡한 장기 SWE 태스크 해결 능력의 한계를 해결하고자 합니다.

#Review #Software Engineering Agents #Post-Training #Supervised Fine-Tuning #Reinforcement Learning #Language Server Protocol #SWE-bench #Code Navigation #LLM

2026년 2월 3일

[논문리뷰] PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

기존 annotation-free T2V 후처리 학습 방식이 사전 훈련된 Vision-Language Models (VLMs) 의 정렬되지 않은 임베딩에 의존하여 최적의 성능을 달성하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Post-Training #Optimal Transport #Reward Modeling #Annotation-free #Vision-Language Models #Diffusion Models

2026년 2월 2일

[논문리뷰] Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models

본 연구는 제한된 자원과 엄격한 투명성 제약이 있는 환경에서, 지역 또는 국가 기관이 모델 가중치, 훈련 데이터, 배포에 대한 통제력을 유지할 수 있도록 하는 소버린 대규모 언어 모델(LLM) 의 최소한의 공개 포스트 트레이닝 레시피 를 개발하는 것을 목표로 합니다.

#Review #Sovereign LLMs #Post-Training #Instruction Tuning #Supervised Fine-tuning #On-Policy Distillation #Reinforcement Learning #Knowledge Injection #Thai Language

2026년 1월 29일

[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language Models

Diffusion Language Models (dLLMs)의 미흡한 post-training (특히 RL) 성능을 개선하여 수학적 추론 능력과 실제 배포 효율성을 향상시키는 것을 목표로 합니다.

#Review #Diffusion Language Models #Post-Training #Reinforcement Learning #GRPO #FlexAttention #LMDeploy #Math Reasoning #SFT

2025년 12월 29일

[논문리뷰] What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards

최신 비디오 확산 모델이 시각적으로는 인상적이지만, 물체 부유, 가속도 불일치, 충돌 비현실성 등 기본적인 물리 법칙을 위반하는 문제점을 해결하는 것이 목표입니다.

#Review #Video Generation #Diffusion Models #Newtonian Dynamics #Physics-aware AI #Post-Training #Verifiable Rewards #Optical Flow #Mass Estimation

2025년 12월 1일

[논문리뷰] P1: Mastering Physics Olympiads with Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 퍼즐 풀이를 넘어 과학 수준의 추론 능력을 갖추도록 발전시키고, 특히 복잡한 물리학 올림피아드 문제를 해결하는 능력을 향상시키는 것을 목표로 합니다. 이를 통해 LLM이 물리적 현실과 자연 법칙의 엄격한 제약을 준수하는, 진정한 과학적 추론 능력을 입증하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Physics Reasoning #Agentic AI #Olympiad Problems #Post-Training #Knowledge Transfer

2025년 11월 17일

[논문리뷰] Towards a Unified View of Large Language Model Post-Training

본 논문은 LLM의 포스트 트레이닝 과정에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 이 별개의 목표가 아니라, 단일 최적화 프로세스의 인스턴스임을 이론적으로 통합하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Post-Training #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Policy Gradient #Unified Framework #Hybrid Algorithms #Bias-Variance Tradeoff

2025년 9월 5일

[논문리뷰] SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models

본 논문은 Unified Multimodal Models ( UMMs )이 이미지 이해 능력에 비해 이미지 생성 능력에서 현저한 격차를 보이는 문제에 주목합니다. 모델이 사용자 지침에 따라 이미지를 정확하게 이해하더라도, 동일한 텍스트 프롬프트로부터 충실한 이미지를 생성하지 못하는 역설을 해결하고자 합니다.

#Review #Unified Multimodal Models #Self-Rewarding #Text-to-Image Generation #Image Understanding #Post-Training #Global-Local Reward #Compositional Reasoning

2025년 10월 15일

[논문리뷰] Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

대규모 추론 모델의 후처리 훈련(Post-Training) 기법(SFT, RL 등)이 모델의 추론 능력 향상에 기여하는 내부 아키텍처 메커니즘의 불투명성을 해소하는 것이 주요 목표입니다.

#Review #Mechanistic Interpretability #Attention Heads #Post-Training #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Circuit Analysis #Reasoning Models #Transformer Architecture

2025년 10월 1일