[논문리뷰] MASPRM: Multi-Agent System Process Reward ModelMulti-Agent Systems (MAS)의 추론 시 검색 과정에서 발생하는 비신뢰성 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Systems#Process Reward Model#MCTS#Inference-time Search#LLM Agents#Zero-shot Transfer#Reinforcement Learning#Compute-Aware Reasoning2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned이 논문은 대규모 언어 모델(LLM)의 추론 신뢰성을 향상시키는 프로세스 보상 모델(PRM)을 시각-언어 모델(VLM) 영역으로 확장하고자 합니다.#Review#Vision-Language Models (VLMs)#Process Reward Models (PRMs)#Multimodal Reasoning#Test-Time Scaling (TTS)#Process Supervision#Dataset Construction#Perception Errors#MCTS2025년 10월 2일댓글 수 로딩 중