#Best-of-N Sampling

4개의 포스트

[논문리뷰] Transition-Aware best-of-N sampling for Longitudinal Chest X-ray Reports

본 연구는 대부분의 기존 Chest X-ray 보고서 생성 모델 및 Best-of-N 파이프라인이 환자의 이전 검사 이력을 무시하고 단일 이미지에만 의존한다는 한계를 해결합니다.

#Review #Chest X-ray #Report Generation #Best-of-N Sampling #Longitudinal Context #Vision-Language Models #Set-to-Set Distance #Clinical Transition

2026년 7월 6일

[논문리뷰] Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

이 논문은 대규모 언어 모델(LLMs)의 안전성 평가가 단일 시도(single-shot) 또는 저예산 공격에만 초점을 맞춰 실제 위협을 과소평가하는 문제를 해결하고자 합니다.

#Review #LLM Safety #Adversarial Robustness #Best-of-N Sampling #Statistical Estimation #Beta-Binomial Model #Jailbreak #Risk Amplification

2026년 2월 1일

[논문리뷰] The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

본 논문은 Large Language Models (LLMs)의 강화 학습(RL) 미세 조정 시 Best-of-N (BoN) 샘플링 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Best-of-N Sampling #Max@k Optimization #Policy Gradients #Off-policy Learning #Code Generation

2025년 10월 28일

[논문리뷰] A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling

현재 선호도 정렬 기법인 Best-of-N (BoN) 샘플링 이 단순히 '더 나은' 응답을 선택할 뿐, '충분히 좋은' 응답의 절대적 허용 가능성을 판단하지 못하는 문제를 해결하고자 합니다.

#Review #Reward Model #Best-of-N Sampling #Preference Alignment #Contextual Acceptability #Discrete Choice Model #Alignment Guardrail #Inference Accelerator

2025년 10월 8일