[논문리뷰] Are We on the Right Way to Assessing LLM-as-a-Judge?본 논문은 현재 LLM-as-a-Judge 평가 방법론이 인간 주석에 과도하게 의존하여 발생하는 편향, 불일치성, 확장성 문제를 해결하고자 합니다.#Review#LLM-as-a-Judge#Evaluation Metrics#Consistency#Robustness#Positional Bias#Transitivity#Situational Preference#Multi-agent Systems2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Jailbreaking in the Haystack본 연구는 장문(long-context) 언어 모델(LMs)의 확장된 컨텍스트 창이 가지는 안전성 함의를 분석하고, 심지어 양성(benign) 컨텍스트 내에서도 안전 기능이 어떻게 저하되는지 탐구하는 것을 목표로 합니다.#Review#Jailbreaking#LLM Safety#Long-Context Models#Positional Bias#Attack Success Rate (ASR)#Prompt Engineering#Compute Efficiency#AI Agents2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Judging with Confidence: Calibrating Autoraters to Preference Distributions이 논문은 현재 LLM 기반 자동 평가자(autoraters)가 이진 선호 레이블로만 훈련되어 인간 판단의 주관성과 분포적 특성을 간과하고, 불확실성과 소수 의견을 무시하는 근본적인 한계를 해결하고자 합니다.#Review#Large Language Models#Autoraters#Calibration#Preference Distributions#Reinforcement Learning#Supervised Fine-tuning#Positional Bias2025년 10월 7일댓글 수 로딩 중