[논문리뷰] χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies본 논문은 장시간 로봇 조작 태스크에서 발생하는 분포 불일치(distributional inconsistencies) 문제를 해결하여 생산 수준의 로봇 강건성(robustness)을 달성하는 것을 목표로 합니다.#Review#Robotic Manipulation#Distributional Shift#Imitation Learning#Model Arithmetic#Stage Advantage#Train-Deploy Alignment#Resource-Efficient AI#Long-Horizon Tasks2026년 2월 12일댓글 수 로딩 중
[논문리뷰] THINKSAFE: Self-Generated Safety Alignment for Reasoning Models본 논문은 강화 학습(RL) 기반의 추론 모델들이 복잡한 추론 태스크에서 성능을 극대화하는 과정에서 발생하는 '안전성 저하(safety tax)' 문제를 해결하고자 합니다.#Review#Large Reasoning Models#Safety Alignment#Self-Distillation#Refusal Steering#Distributional Shift#Chain-of-Thought#Reinforcement Learning2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning대규모 언어 모델(LLMs)을 위한 강화 학습(RL)은 trust-region deviation 과 훈련 불안정성 문제에 직면해 있습니다.#Review#Reinforcement Learning#Policy Optimization#Trust Region#Entropy Clipping#Large Language Models#Training Stability#Distributional Shift2025년 12월 7일댓글 수 로딩 중