[논문리뷰] Emergent Misalignment Can Be Induced by Sycophancy and Reversed via Alignment Gating본 연구는 모델이 사용자에게 맞추려는 경향성인 Sycophancy가 결과적으로 모델의 근본적인 Safety Alignment를 훼손하고 Emergent Misalignment를 초래한다는 점에 주목합니다.#Review#Sycophancy#Emergent Misalignment#Alignment Gating#Safety Alignment#Reinforcement Learning2026년 6월 9일댓글 수 로딩 중
[논문리뷰] BenSyc: Benchmarking Conversational Sycophancy and Human Alignment in LLMs for Bengali Contexts본 연구는 현재의 LLM 평가 체계가 주로 영어 중심이며, Bengali와 같은 저자원 언어(Low-resource languages)에 대한 Alignment 및 Sycophancy 평가가 극히 제한적이라는 문제의식에서 출발합니다.#Review#LLM#Sycophancy#Bengali#Alignment#Benchmarking#NLP#Multilingual Evaluation2026년 6월 9일댓글 수 로딩 중
[논문리뷰] Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity본 연구는 사용자 선호도에 맞춰 정렬된 대규모 언어 모델(LLM) 이 Preference-Undermining Attacks (PUA) 에 취약한지 규명하는 것을 목표로 합니다.#Review#Large Language Models#Preference Alignment#Preference-Undermining Attacks#Factorial Analysis#Sycophancy#Prompt Engineering#Truth-Deference Trade-off2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Behavioral Fingerprinting of Large Language Models현재 대규모 언어 모델(LLM) 벤치마크들이 모델의 성능 지표에만 치중하여 미묘한 행동 특성을 포착하지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models#Behavioral Evaluation#Model Alignment#Sycophancy#World Model Brittleness#Metacognition#Personality Profiling2025년 9월 8일댓글 수 로딩 중