[논문리뷰] TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment본 논문은 대규모 언어 모델(LLM)에서 유해한 콘텐츠 생성을 완화하는 안전성 정렬의 시급한 문제를 다룹니다. 기존 방법론들이 겪는 확장성 한계, 레드 팀 훈련의 엔트로피 붕괴, 방어 모델의 과적합, 그리고 적대적 다양성 부족 문제를 해결하는 것을 목표로 합니다.#Review#LLM Safety Alignment#Reinforcement Learning#Self-Play#Red Teaming#Adversarial Training#Multi-Role Framework#Reward Hacking Mitigation2026년 1월 27일댓글 수 로딩 중
[논문리뷰] Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning본 논문은 데이터 부족 및 보상 해킹(reward hacking) 문제로 인해 강화 학습(RL) 기반 Vision-Language Models (VLMs) 의 전문 도메인(예: 화학, 지구 과학) 적용 및 지속적인 자체 진화 학습이 어려운 문제를 해결하고자 합니다.#Review#Vision-Language Models#Reinforcement Learning#Self-Evolving Learning#Data-Scarce Domains#Context-First Learning#Reward Hacking Mitigation#Multimodal Reasoning#Curriculum Learning2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning with Rubric Anchors이 논문은 확인 가능한 보상(RLVR) 을 사용하는 기존 강화 학습 패러다임이 자동 검증이 가능한 특정 도메인(예: 수학, 코딩)에 국한되는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Rubric-based Reward#RLVR Extension#Human-centric AI#Controllable Generation#Reward Hacking Mitigation2025년 8월 19일댓글 수 로딩 중