#Visual AutoRegressor

1개의 포스트

[논문리뷰] FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

Vision-and-Language Navigation (VLN)에서 기존 Chain-of-Thought (CoT) 추론 방식의 한계, 즉 공간 접지 부족, 희소한 주석에 대한 과적합, 또는 상상된 시각적 관찰 생성으로 인한 심각한 토큰 팽창 문제로 실시간 내비게이션이 비실용적인 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language Navigation #Chain-of-Thought Reasoning #Multimodal AI #Implicit Reasoning #Visual AutoRegressor #Embodied AI #Long-Horizon Planning

2026년 1월 20일