[논문리뷰] Reward Prediction with Factorized World States본 연구는 AI 에이전트가 새로운 목표와 환경에 걸쳐 일반화할 수 있는 정확하고 일반화 가능한 보상 예측 모델 을 개발하는 것을 목표로 합니다. 특히 훈련 데이터의 편향과 일반화 한계가 있는 기존 지도학습 기반 보상 모델의 문제를 해결하고, 미세한 단계별 보상 평가를 위한 벤치마크 부족을 해소하고자 합니다.#Review#Reward Prediction#World Models#State Representation#Large Language Models#Zero-shot Learning#Reinforcement Learning#Planning#Factorization2026년 3월 10일댓글 수 로딩 중
[논문리뷰] StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation로봇 시스템에서 효율적인 세계 모델링과 의사 결정을 위해 표현적이고 압축적인 상태 표현 을 개발하는 것이 핵심 목표입니다. 기존 방법론들이 과도한 중복성이나 핵심 정보 부족으로 겪던 한계를 극복하고, 로봇의 시각적 정보를 효과적으로 요약하여 행동에 직접 연결될 수 있는 표현을 학습하고자 합니다.#Review#Robot Learning#State Representation#Motion Representation#Diffusion Models#Unsupervised Learning#World Modeling#Vision-Language Models#Latent Action2025년 10월 9일댓글 수 로딩 중