#LM Safety

1개의 포스트

[논문리뷰] DeepSight: An All-in-One LM Safety Toolkit

본 논문은 현재 대규모 언어 모델(LM) 및 멀티모달 대규모 언어 모델(MLLM)의 안전성 평가, 진단, 정렬 워크플로우가 파편화되어 외부 행동 위험만 파악하고 내부 원인을 규명하지 못하는 문제를 해결하고자 합니다.

#Review #LM Safety #Evaluation #Diagnosis #Multimodal AI #Frontier AI Risks #Black-box Analysis #White-box Insight #Open-source Toolkit

2026년 2월 12일