[논문리뷰] DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes본 논문은 LLM의 추론 성능 향상을 위해 외부의 강력한 teacher 모델이나 복잡하게 큐레이션된 학습 데이터에 의존해야 하는 기존 RL 패러다임의 한계를 해결하고자 합니다. 기존 방식들은 학습 데이터의 품질이나 교사의 지식 수준에 따라 성능이 제약되는 structural limitation을 가지고 있습니다.#Review#Reinforcement Learning#Reasoning Models#Denoising Reasoning#Weak-to-Strong Generalization#Self-correction#Large Language Models2026년 5월 27일댓글 수 로딩 중
[논문리뷰] WMPO: World Model-based Policy Optimization for Vision-Language-Action ModelsVLA 모델이 로봇 조작에 큰 잠재력을 보이지만, 전문가 데모에 의존하여 실패로부터 학습하고 스스로 수정하는 능력이 제한적이라는 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Reinforcement Learning (RL)#Model-based RL#World Models#Policy Optimization#Robotics#Sample Efficiency#Self-correction2025년 11월 12일댓글 수 로딩 중
[논문리뷰] MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training본 논문은 기존 Multi-turn Text-to-SQL 시스템들이 단기적인 추론 패러다임에 머물러 실행 가능하거나 일관성 있는 SQL을 생성하지 못하는 문제를 해결합니다.#Review#Multi-turn Text-to-SQL#Agentic Training#Reinforcement Learning#Large Language Models#Dialogue Systems#Semantic Parsing#Database Interaction#Self-correction2025년 10월 16일댓글 수 로딩 중