[논문리뷰] Beyond Imitation: Reinforcement Learning for Active Latent Planning이 논문은 기존의 모방 기반 잠재 추론 방식이 여러 동등한 추론 경로 중 하나만을 학습하여 성능 저하 및 훈련-테스트 간 격차를 초래하는 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Reasoning#Reinforcement Learning (RL)#Variational Autoencoder (VAE)#Active Planning#Numerical Reasoning#Coherence Reward2026년 1월 29일댓글 수 로딩 중