[논문리뷰] CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning본 논문은 LLM의 추론 후속 훈련 과정에서 발생하는 콜드 스타트 문제, 제한된 도메인 커버리지, 주석 병목 현상 이라는 세 가지 핵심 데이터 관련 문제를 해결하는 것을 목표로 합니다. 특히, 인간 주석 없이 컴팩트하면서도 일반화 가능한 고품질 합성 추론 데이터셋 을 구축하여 이 문제를 해결하고자 합니다.#Review#Synthetic Data#LLM Reasoning#Chain-of-Thought#Data Efficiency#Post-training#Generalization#Quality Control#Domain Coverage2026년 3월 2일댓글 수 로딩 중
[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models본 논문은 상호작용적 비디오 기반 세계 모델(world models)의 장기적인 탐색 정확도와 일관성을 향상시키기 위해, 강화 학습(RL) 기반의 후처리 훈련 프레임워크인 WorldCompass 를 제안합니다.#Review#Reinforcement Learning#World Models#Video Generation#Autoregressive Generation#Long-Horizon#Post-training#Diffusion Models#Reward Functions2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents Stronger이 논문은 대규모 언어 모델(LLM)의 후처리 최적화 과정에서 발생하는 성능 포화 병목 현상 을 해결하는 것을 목표로 합니다.#Review#Weak-Driven Learning#LLM Optimization#Post-training#Gradient Amplification#Curriculum Learning#Knowledge Distillation#Mathematical Reasoning#Code Generation2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Reinforced Attention Learning본 논문은 기존 RL 기반 LLM 후처리 방식이 MLLM에서 시각적 추론을 위한 '생성할 내용'에만 초점을 맞추어 제한적인 성능 향상을 보이거나 심지어 성능을 저하시키는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Multimodal LLMs#Attention Mechanisms#Policy Gradient#Knowledge Distillation#Visual Grounding#Post-training2026년 2월 5일댓글 수 로딩 중
[논문리뷰] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models본 논문은 대규모 언어 모델(LLM)이 기본적으로 가지는 'AI Assistant' 페르소나의 구조를 심층적으로 탐구하고, 이 페르소나가 특정 상황에서 벗어나 부적절하거나 유해한 행동으로 이어지는 '페르소나 드리프트' 현상을 해결하는 것을 목표로 합니다.#Review#Language Models#Persona Control#Activation Steering#Persona Drift#Alignment#Post-training#Interpretability#Safety2026년 1월 19일댓글 수 로딩 중
[논문리뷰] STEP3-VL-10B Technical Report본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.#Review#Multimodal Large Language Models#Vision-Language Models#Reinforcement Learning#Parallel Coordinated Reasoning#Model Efficiency#Foundation Models#Pre-training#Post-training2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance본 논문은 방대한 자원과 시간이 소요되는 LLM 훈련의 한계를 극복하고, 기존의 균일 가중치 모델 수핑(model souping) 및 임의적인 모델 선택의 단점을 해결하고자 합니다.#Review#Model Souping#Large Language Models#Weighted Averaging#Benchmark Optimization#State-of-the-Art#Category Experts#Parameter Averaging#Post-training2025년 11월 17일댓글 수 로딩 중
[논문리뷰] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL TuningMLLM(Multimodal Large Language Models)의 추론 능력 향상을 목표로 합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Post-training#Reasoning#Dual-Reward System#Thinking Reward#Judging Reward#Hallucination Reduction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Visual Jigsaw Post-Training Improves MLLMs본 논문은 기존 MLLM(Multimodal Large Language Models)의 텍스트 중심 후속 훈련 패러다임이 시각 신호에 대한 세밀한 이해를 과소평가한다는 문제점을 해결하고자 합니다.#Review#MLLMs#Post-training#Self-supervised Learning#Visual Understanding#Jigsaw Puzzles#RLVR#Multimodal Perception#Spatial Reasoning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] StateX: Enhancing RNN Recall via Post-training State Expansion본 논문은 Transformer 대비 긴 컨텍스트 처리 효율이 높은 RNN 계열 모델들이 고정된 크기의 recurrent state 로 인해 장문 컨텍스트에서의 정보 회상 능력(recall ability) 이 떨어지는 문제를 해결하고자 합니다.#Review#RNN#State Expansion#Post-training#Long-context Recall#Linear Attention#State Space Models#GLA#Mamba22025년 9월 29일댓글 수 로딩 중
[논문리뷰] Reconstruction Alignment Improves Unified Multimodal Models논문은 통합 멀티모달 모델(UMM)이 이미지-텍스트 쌍으로 훈련될 때 캡션의 희소성으로 인해 미세한 시각적 디테일을 놓치고, 이해와 생성 간의 정렬이 불완전하다는 문제를 해결하고자 합니다.#Review#Unified Multimodal Models#Image Generation#Image Editing#Post-training#Self-supervised Learning#Reconstruction Alignment#Visual Embeddings2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Why Language Models Hallucinate본 논문은 대규모 언어 모델(LLM)이 '환각' 현상, 즉 그럴듯하지만 틀린 정보를 자신감 있게 생성하는 이유를 통계적으로 분석하고, 이러한 문제가 최신 모델에서도 지속되는 근본적인 원인을 밝히는 것을 목표로 합니다.#Review#Language Models#Hallucination#Pretraining#Post-training#Evaluation Metrics#Binary Classification#Uncertainty Quantification#Calibration2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Jointly Reinforcing Diversity and Quality in Language Model Generations대규모 언어 모델(LM)의 후처리 과정에서 발생하는 다양성 감소 문제를 해결하는 것이 주요 목표입니다. 기존 후처리 방식이 정확도와 유용성에 초점을 맞춰 출력 분포가 과도하게 좁아지고 아이디어 범위가 축소되는 현상을 방지하며, 응답 품질과 의미론적 다양성을 동시에 최적화하는 방법을 제시하고자 합니다.#Review#Reinforcement Learning#Language Models#Diversity Optimization#Quality Enhancement#Semantic Clustering#Post-training#Generative AI2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models본 논문은 비디오 이해의 복잡한 시공간적 관계, 장기 의존성, 다중 모달 증거 통합 추론 문제를 해결하기 위해 Video-Large Multimodal Models (Video-LMMs) 의 '포스트 트레이닝(Post-training)' 방법론을 최초로 포괄적으로 분석하는 것을 목표로 합니다.#Review#Video Reasoning#Large Multimodal Models (LMMs)#Post-training#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Test-Time Scaling (TTS)#Chain-of-Thought (CoT)2025년 10월 7일댓글 수 로딩 중