#Backtracking

1개의 포스트

[논문리뷰] MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

현재 Multimodal Large Language Models (MLLM) 은 복잡한 실제 문제 해결에 필수적인 긴 추론 체인(long-chain reflective reasoning) 및 반복적 사고(iterative thinking) 능력에서 한계를 보입니다.

#Review #Multimodal LLMs #Reflective Reasoning #Long-Chain Reasoning #Benchmark #Policy Optimization #Data Generation #Reinforcement Learning #Backtracking

2025년 10월 10일