[논문리뷰] TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment본 논문은 대규모 언어 모델(LLM)에서 유해한 콘텐츠 생성을 완화하는 안전성 정렬의 시급한 문제를 다룹니다. 기존 방법론들이 겪는 확장성 한계, 레드 팀 훈련의 엔트로피 붕괴, 방어 모델의 과적합, 그리고 적대적 다양성 부족 문제를 해결하는 것을 목표로 합니다.#Review#LLM Safety Alignment#Reinforcement Learning#Self-Play#Red Teaming#Adversarial Training#Multi-Role Framework#Reward Hacking Mitigation2026년 1월 27일댓글 수 로딩 중
[논문리뷰] The Unanticipated Asymmetry Between Perceptual Optimization and Assessment본 논문은 지각적 최적화(perceptual optimization)를 위한 손실 함수와 이미지 품질 평가(IQA) 지표 간의 상관관계 및 GAN(Generative Adversarial Network) Discriminator의 표현 전이 가능성(transferability)을 체계적으로 분석하여, 이들 역할 사이에 예상치 못한 비대칭성이 존재함을 밝히는 것을 목표로 합니다.#Review#Perceptual Optimization#Image Quality Assessment (IQA)#Adversarial Training#Discriminators#Super-Resolution#Fidelity Metrics#Deep Learning2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Language Self-Play For Data-Free Training본 연구는 대규모 언어 모델(LLM) 훈련의 핵심 병목인 고품질 훈련 데이터의 지속적인 필요성을 해결하는 것을 목표로 합니다. 데이터에 대한 의존성을 제거하고, 모델이 추가 데이터 없이도 스스로 개선할 수 있도록 하는 강화 학습(RL) 접근 방식 을 제안합니다.#Review#Large Language Models#Reinforcement Learning#Self-Play#Data-Free Training#Instruction Following#Adversarial Training#Reward Modeling2025년 9월 10일댓글 수 로딩 중
[논문리뷰] R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World이 논문은 급증하는 AI 역량과 뒤처지는 안전성 발전 간의 지속적인 격차를 해결하고자 합니다. 기존의 수동적이고 반응적인 안전 접근 방식의 한계를 지적하며, 예측 불가능한 위험에 적응하고 지능과 함께 진화하는 본질적으로 안전한 AI 를 구현하기 위한 새로운 패러다임인 safe-by-coevolution 을 제안합니다.#Review#AI Safety#Resistant AI#Resilient AI#Coevolution#Fast-Slow Models#Adversarial Training#Continual Learning#AGI Alignment2025년 9월 9일댓글 수 로딩 중