[논문리뷰] OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic자율 주행 시스템에서 기존 SFT(Supervised Fine-tuning) 기반 VLM(Vision-Language Model) 의 제한된 추론 일반화 및 개방형 태스크 처리 능력을 개선하는 것이 목표입니다.#Review#Autonomous Driving#Reinforcement Fine-tuning#LLM-as-Critic#Vision-Language Model#End-to-End Learning#Chain-of-Thought#Trajectory Planning2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training본 논문은 LLM(Large Language Model) 포스트 트레이닝 과정에서 발생하는 보상 과적합(reward over-optimization) 문제를 해결하는 것을 목표로 합니다.#Review#LLM#Reinforcement Fine-tuning#Reward Modeling#Reward Over-optimization#Rubric-based Rewards#High-reward Tail#Off-policy Data#LLM Alignment2025년 9월 29일댓글 수 로딩 중