#Open-Weight Models

2개의 포스트

[논문리뷰] Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

본 논문은 오픈-웨이트 대규모 언어 모델(LLM)이 프리필(prefill) 공격 에 체계적으로 취약하다는 점을 폭로하는 것을 목표로 합니다.

#Review #Large Language Models #Prefill Attacks #AI Safety #Red Teaming #Vulnerability #Open-Weight Models #Jailbreaking #Generative AI

2026년 2월 16일

[논문리뷰] Steerability of Instrumental-Convergence Tendencies in LLMs

본 논문은 AI 시스템의 역량(capability) 성장과 제어 가능성(steerability) 간의 관계를 탐구하며, 특히 도구적 수렴(instrumental convergence) 경향에 초점을 맞춥니다.

#Review #LLM Steerability #Instrumental Convergence #AI Safety #AI Security #Open-Weight Models #Prompt Engineering #Model Control #Behavioral Alignment

2026년 1월 6일