#Perception Errors

2개의 포스트

[논문리뷰] SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization

기존 LVLM(Large Vision-Language Models) 기반의 VLN(Vision-Language Navigation) 에이전트가 겪는 지각, 추론, 계획 오류로 인한 낮은 내비게이션 성능 문제를 해결하고자 합니다.

#Review #Vision-Language Navigation #Large Vision-Language Models #Visual Prompt #Reinforcement Fine-Tuning #Policy Optimization #Embodied AI #Spatial Reasoning #Perception Errors

2025년 12월 4일

[논문리뷰] Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned

이 논문은 대규모 언어 모델(LLM)의 추론 신뢰성을 향상시키는 프로세스 보상 모델(PRM)을 시각-언어 모델(VLM) 영역으로 확장하고자 합니다.

#Review #Vision-Language Models (VLMs)#Process Reward Models (PRMs)#Multimodal Reasoning #Test-Time Scaling (TTS)#Process Supervision #Dataset Construction #Perception Errors #MCTS

2025년 10월 2일