[논문리뷰] InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training본 논문은 보상 함수가 모호하고 주관적인 개방형 AI 태스크 , 특히 의료 상담 과 같은 고위험 시나리오에서 LLM의 성능 향상을 목표로 합니다.#Review#LLMs#Reinforcement Learning#Rubric-Based Training#Medical Dialogue#Open-Ended Tasks#HealthBench#RAG2025년 10월 20일댓글 수 로딩 중