[논문리뷰] QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting본 논문은 대규모 언어 모델(LLM)의 환각 발생률 증가 문제를 해결하고자 합니다. 기존의 사후 필터링 방식 대신, 입력 쿼리의 17가지 언어학적 특징 을 활용하는 밴딧 프레임워크 를 통해 쿼리 재작성 전략을 설계하여, LLM이 환각을 생성하지 않도록 사전에 유도하는 것을 목표로 합니다.#Review#Hallucination Mitigation#Large Language Models#Contextual Bandits#Query Rewriting#Semantic Features#No-Regret Learning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs대규모 LLM 배포 환경에서 각 쿼리당 최적의 LLM을 효율적으로 선택하는 문제를 해결하는 것이 목표입니다.#Review#LLM Routing#Contextual Bandits#Bandit Feedback#Multi-objective Optimization#Preference-tuning#Policy Gradient#Cost-efficiency2025년 10월 10일댓글 수 로딩 중