#Search Models

1개의 포스트

[논문리뷰] Agentic Reinforcement Learning for Search is Unsafe

본 논문은 에이전트형 강화 학습(RL)으로 훈련된 검색 모델의 안전성, 특히 유해한 요청에 대한 거부 능력과 기존 지시 튜닝(Instruction Tuning)으로부터 물려받은 안전성 속성이 어떻게 변화하는지 평가하는 것을 목표로 합니다.

#Review #Agentic Reinforcement Learning #LLM Safety #Tool Use #Search Models #Jailbreaking #Instruction Tuning #Vulnerability

2025년 10월 21일