[논문리뷰] CHIMERA: Compact Synthetic Data for Generalizable LLM ReasoningarXiv에 게시된 'CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Synthetic Data#LLM Reasoning#Chain-of-Thought#Data Efficiency#Post-training#Generalization#Quality Control#Domain Coverage2026년 3월 2일댓글 수 로딩 중
[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World ModelsarXiv에 게시된 'WorldCompass: Reinforcement Learning for Long-Horizon World Models' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#World Models#Video Generation#Autoregressive Generation#Long-Horizon#Post-training#Diffusion Models#Reward Functions2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents StrongerarXiv에 게시된 'Weak-Driven Learning: How Weak Agents make Strong Agents Stronger' 논문에 대한 자세한 리뷰입니다.#Review#Weak-Driven Learning#LLM Optimization#Post-training#Gradient Amplification#Curriculum Learning#Knowledge Distillation#Mathematical Reasoning#Code Generation2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Reinforced Attention LearningarXiv에 게시된 'Reinforced Attention Learning' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Multimodal LLMs#Attention Mechanisms#Policy Gradient#Knowledge Distillation#Visual Grounding#Post-training2026년 2월 5일댓글 수 로딩 중
[논문리뷰] The Assistant Axis: Situating and Stabilizing the Default Persona of Language ModelsJack Lindsey이 arXiv에 게시한 'The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Language Models#Persona Control#Activation Steering#Persona Drift#Alignment#Post-training#Interpretability#Safety2026년 1월 19일댓글 수 로딩 중
[논문리뷰] STEP3-VL-10B Technical ReportarXiv에 게시된 'STEP3-VL-10B Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Vision-Language Models#Reinforcement Learning#Parallel Coordinated Reasoning#Model Efficiency#Foundation Models#Pre-training#Post-training2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM PerformancearXiv에 게시된 'Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance' 논문에 대한 자세한 리뷰입니다.#Review#Model Souping#Large Language Models#Weighted Averaging#Benchmark Optimization#State-of-the-Art#Category Experts#Parameter Averaging#Post-training2025년 11월 17일댓글 수 로딩 중
[논문리뷰] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL TuningarXiv에 게시된 'SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Post-training#Reasoning#Dual-Reward System#Thinking Reward#Judging Reward#Hallucination Reduction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Modelszeliang0426이 arXiv에 게시한 'Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Reasoning#Large Multimodal Models (LMMs)#Post-training#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Test-Time Scaling (TTS)#Chain-of-Thought (CoT)2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Visual Jigsaw Post-Training Improves MLLMsLewei Lu이 arXiv에 게시한 'Visual Jigsaw Post-Training Improves MLLMs' 논문에 대한 자세한 리뷰입니다.#Review#MLLMs#Post-training#Self-supervised Learning#Visual Understanding#Jigsaw Puzzles#RLVR#Multimodal Perception#Spatial Reasoning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] StateX: Enhancing RNN Recall via Post-training State ExpansionZhiyuan Liu이 arXiv에 게시한 'StateX: Enhancing RNN Recall via Post-training State Expansion' 논문에 대한 자세한 리뷰입니다.#Review#RNN#State Expansion#Post-training#Long-context Recall#Linear Attention#State Space Models#GLA#Mamba22025년 9월 29일댓글 수 로딩 중
[논문리뷰] Reconstruction Alignment Improves Unified Multimodal ModelsXuDong Wang이 arXiv에 게시한 'Reconstruction Alignment Improves Unified Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Models#Image Generation#Image Editing#Post-training#Self-supervised Learning#Reconstruction Alignment#Visual Embeddings2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Why Language Models HallucinateEdwin Zhang이 arXiv에 게시한 'Why Language Models Hallucinate' 논문에 대한 자세한 리뷰입니다.#Review#Language Models#Hallucination#Pretraining#Post-training#Evaluation Metrics#Binary Classification#Uncertainty Quantification#Calibration2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Jointly Reinforcing Diversity and Quality in Language Model GenerationsTianlu이 arXiv에 게시한 'Jointly Reinforcing Diversity and Quality in Language Model Generations' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Language Models#Diversity Optimization#Quality Enhancement#Semantic Clustering#Post-training#Generative AI2025년 9월 3일댓글 수 로딩 중