[논문리뷰] MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning비디오 기반 MLLM(Multimodal Large Language Models)에서 발생하는 프로세스 불일치(process inconsistency) 문제를 해결하여, 모델이 올바른 최종 답변을 도출하더라도 중간 추론 과정이 비디오의 시간적 역동성에서 벗어나는 한계를 극복하는 것을 목표로 합니다.#Review#Video Temporal Reasoning#Reinforcement Learning#Process Supervision#Dynamic Time Warping#Multimodal Large Language Models#Video State Prediction#Reward Hacking2025년 9월 26일댓글 수 로딩 중