#Model Control

1개의 포스트

[논문리뷰] Steerability of Instrumental-Convergence Tendencies in LLMs

본 논문은 AI 시스템의 역량(capability) 성장과 제어 가능성(steerability) 간의 관계를 탐구하며, 특히 도구적 수렴(instrumental convergence) 경향에 초점을 맞춥니다.

#Review #LLM Steerability #Instrumental Convergence #AI Safety #AI Security #Open-Weight Models #Prompt Engineering #Model Control #Behavioral Alignment

2026년 1월 6일