#AnsF1 Reward

1개의 포스트

[논문리뷰] A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

본 논문은 기존 QA 모델들이 여러 유효한 답변을 허용하는 모호한 질문에 어려움을 겪으며, 단일 정답을 가정하는 벤치마크가 잘못된 훈련 신호를 제공한다는 문제를 해결하고자 합니다.

#Review #Question Answering #Reinforcement Learning #Large Language Models #Ambiguity Resolution #Multi-hop QA #Automated Data Generation #Tool-Augmented LLMs #AnsF1 Reward

2025년 10월 10일