[논문리뷰] Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection본 논문은 LLM의 안전성 정렬 과정에서 발생하는 Alignment Tax가 본질적으로는 서로 다른 최적화 목적이 충돌하며 발생하는 'catastrophic forgetting'의 일종임을 규명합니다 .#Review#Safety Alignment#Alignment Tax#Continual Learning#Catastrophic Forgetting#Gradient Projection#Orthogonal Constraint2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs이 논문은 RL(강화 학습)이 LLM(대규모 언어 모델)의 추론 능력 향상과 암기된 지식 저하 사이의 트레이드오프를 가져온다는 일반적인 통념에 도전합니다.#Review#Reinforcement Learning#Large Language Models#Hierarchical Knowledge#Knowledge Traversal#Structured Prompting#Internal Representations#Alignment Tax2025년 11월 10일댓글 수 로딩 중