#Dense Rewards

3개의 포스트

[논문리뷰] A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

로봇의 실세계 강화 학습(RL)에서 희소하고 수작업으로 제작된 보상 및 비효율적인 탐색 으로 인한 병목 현상을 해결하는 것을 목표로 합니다.

#Review #Robotics #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Reward Modeling #Human-in-the-Loop #Dense Rewards #Generalization #Autoregressive Models

2025년 9월 22일

[논문리뷰] Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

본 논문은 대규모 언어 모델(LLM) 추론 훈련에서 결정론적 검증기(deterministic checkers) 의 이진(0-1) 보상 신호가 야기하는 한계(학습 비효율성, 오분류)를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Reward Modeling #Large Language Models (LLMs)#Mathematical Reasoning #Sparse Rewards #Dense Rewards #Hybrid Reinforcement #Verifier-based Rewards

2025년 10월 10일

[논문리뷰] OmniNWM: Omniscient Driving Navigation World Models

본 논문은 기존 자율주행 월드 모델이 가진 제한된 상태 모달리티, 짧은 시퀀스 길이, 부정확한 액션 제어, 보상 인식 부족 등의 문제를 해결하여, 자율주행을 위한 종합적이고 전지적인(omniscient) 파노라마 내비게이션 월드 모델 을 개발하는 것을 목표로 합니다.

#Review #Autonomous Driving #World Models #Multi-modal Generation #3D Occupancy #Plücker Ray-maps #Action Control #Dense Rewards #Long-term Forecasting

2025년 10월 23일