[논문리뷰] Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks본 논문은 오픈-웨이트 대규모 언어 모델(LLM)이 프리필(prefill) 공격 에 체계적으로 취약하다는 점을 폭로하는 것을 목표로 합니다.#Review#Large Language Models#Prefill Attacks#AI Safety#Red Teaming#Vulnerability#Open-Weight Models#Jailbreaking#Generative AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Steerability of Instrumental-Convergence Tendencies in LLMs본 논문은 AI 시스템의 역량(capability) 성장과 제어 가능성(steerability) 간의 관계를 탐구하며, 특히 도구적 수렴(instrumental convergence) 경향에 초점을 맞춥니다.#Review#LLM Steerability#Instrumental Convergence#AI Safety#AI Security#Open-Weight Models#Prompt Engineering#Model Control#Behavioral Alignment2026년 1월 6일댓글 수 로딩 중