#Medical Dialogue

1개의 포스트

[논문리뷰] InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training

본 논문은 보상 함수가 모호하고 주관적인 개방형 AI 태스크 , 특히 의료 상담 과 같은 고위험 시나리오에서 LLM의 성능 향상을 목표로 합니다.

#Review #LLMs #Reinforcement Learning #Rubric-Based Training #Medical Dialogue #Open-Ended Tasks #HealthBench #RAG

2025년 10월 20일