[논문리뷰] Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training다국어 환경에서 긴 추론 모델( LRMs )이 겪는 어려움, 즉 비영어권 질문에 대해 영어로 추론하려는 경향과 질문 언어로 추론 시 정확도가 현저히 떨어지는 문제를 해결하는 것을 목표로 합니다.#Review#Multilingual Reasoning#Reinforcement Learning#Machine Translation#Question Understanding#Self-Improvement#Language Models#Cross-Lingual Alignment2026년 2월 8일댓글 수 로딩 중