[논문리뷰] Agentic Reinforcement Learning for Search is Unsafe본 논문은 에이전트형 강화 학습(RL)으로 훈련된 검색 모델의 안전성, 특히 유해한 요청에 대한 거부 능력과 기존 지시 튜닝(Instruction Tuning)으로부터 물려받은 안전성 속성이 어떻게 변화하는지 평가하는 것을 목표로 합니다.#Review#Agentic Reinforcement Learning#LLM Safety#Tool Use#Search Models#Jailbreaking#Instruction Tuning#Vulnerability2025년 10월 21일댓글 수 로딩 중