#Contextual Bandits

2개의 포스트

[논문리뷰] QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

본 논문은 대규모 언어 모델(LLM)의 환각 발생률 증가 문제를 해결하고자 합니다. 기존의 사후 필터링 방식 대신, 입력 쿼리의 17가지 언어학적 특징 을 활용하는 밴딧 프레임워크 를 통해 쿼리 재작성 전략을 설계하여, LLM이 환각을 생성하지 않도록 사전에 유도하는 것을 목표로 합니다.

#Review #Hallucination Mitigation #Large Language Models #Contextual Bandits #Query Rewriting #Semantic Features #No-Regret Learning

2025년 8월 27일

[논문리뷰] Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs

대규모 LLM 배포 환경에서 각 쿼리당 최적의 LLM을 효율적으로 선택하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Routing #Contextual Bandits #Bandit Feedback #Multi-objective Optimization #Preference-tuning #Policy Gradient #Cost-efficiency

2025년 10월 10일