[논문리뷰] SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks본 연구는 기존 LLM의 Self-play가 수학, 코드 등 규칙 검증이 가능한 도메인에 한정되어 있으며, 오픈형 과제에서는 외부 데이터나 Frontier Model에 대한 의존성을 벗어나지 못한다는 문제점을 해결하고자 합니다.#Review#Self-Play#Open-Ended Tasks#Reinforcement Learning#Rubric Reward#Retrieval-Augmented Generation#Co-Evolution#Data-Free2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision과학적 추론 태스크에서 대규모 언어 모델(LLM)의 취약한 성능을 개선하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 솔루션 평가와 검증 전략의 다양성 부족 문제, 그리고 제한된 감독 환경에서의 자가 진화 프레임워크 개발이라는 과제를 해결하고자 합니다.#Review#LLM#Scientific Reasoning#Co-evolution#Reinforcement Learning#Sparse Supervision#Geometric Consensus#Self-Play#Verifier2026년 2월 12일댓글 수 로딩 중
[논문리뷰] TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment본 논문은 대규모 언어 모델(LLM)에서 유해한 콘텐츠 생성을 완화하는 안전성 정렬의 시급한 문제를 다룹니다. 기존 방법론들이 겪는 확장성 한계, 레드 팀 훈련의 엔트로피 붕괴, 방어 모델의 과적합, 그리고 적대적 다양성 부족 문제를 해결하는 것을 목표로 합니다.#Review#LLM Safety Alignment#Reinforcement Learning#Self-Play#Red Teaming#Adversarial Training#Multi-Role Framework#Reward Hacking Mitigation2026년 1월 27일댓글 수 로딩 중
[논문리뷰] Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability본 논문은 초기 성공률이 낮아 훈련 신호가 희박한 어려운 추론 문제 에 대해 대규모 언어 모델(LLM) 이 학습 정체기에서 벗어나도록 돕는 것을 목표로 합니다.#Review#Meta-RL#Curriculum Learning#Self-Play#LLM Reasoning#Sparse Rewards#Question Generation#Bilevel Optimization2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Guided Self-Evolving LLMs with Minimal Human Supervision본 논문은 기존의 자율 진화(self-evolving) 언어 모델(LLM)이 겪는 불안정성, 성능 정체, 개념 표류(concept drift) 및 다양성 붕괴(diversity collapse) 문제를 해결하고자 합니다.#Review#Self-Evolving LLMs#Self-Play#Reinforcement Learning#Curriculum Learning#Few-shot Learning#Human Supervision#Concept Drift#Diversity Collapse2025년 12월 2일댓글 수 로딩 중
[논문리뷰] VisPlay: Self-Evolving Vision-Language Models from Images본 논문은 인간 주석이나 작업별 휴리스틱 없이, 대규모 비정형 이미지 데이터로부터 Vision-Language Models (VLMs) 의 추론 능력을 자율적으로 개선하는 것을 목표로 합니다. 기존 강화 학습(RL) 방식이 지닌 비용과 확장성 한계를 극복하고자 합니다.#Review#Self-Evolving#Vision-Language Models#Reinforcement Learning#Self-Play#Unlabeled Data#Multimodal Reasoning#Group Relative Policy Optimization#Hallucination Mitigation2025년 11월 19일댓글 수 로딩 중
[논문리뷰] OpenSIR: Open-Ended Self-Improving Reasoner논문은 LLM 추론 능력 향상이 인간 주석 데이터 의존성으로 확장성과 성능에 한계가 있음을 지적하며, 이 문제를 해결하고자 합니다.#Review#Open-Ended Learning#Self-Play#Reinforcement Learning#Large Language Models#Mathematical Reasoning#Problem Generation#Curriculum Learning#Reward Shaping2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Monopoly Deal: A Benchmark Environment for Bounded One-Sided Response Games본 연구는 기존 게임 이론에서 충분히 다뤄지지 않은 Bounded One-Sided Response Games (BORGs) 라는 동적 상호작용 패턴을 연구하기 위한 재현 가능한 벤치마크 환경 을 제공하는 것을 목표로 합니다.#Review#Bounded One-Sided Response Games (BORGs)#Monopoly Deal#Benchmark Environment#Counterfactual Regret Minimization (CFR)#Imperfect Information Games#Game Theory#Self-Play#State Abstraction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model ReasoningLLM 추론을 위한 고품질 훈련 문제의 부족이라는 핵심 병목 현상을 해결하고자 합니다.#Review#Prompt Synthesis#Large Language Models#Reasoning#Expectation-Maximization#Self-Play#Supervised Fine-Tuning#Task Generation#Rationale Generation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Language Self-Play For Data-Free Training본 연구는 대규모 언어 모델(LLM) 훈련의 핵심 병목인 고품질 훈련 데이터의 지속적인 필요성을 해결하는 것을 목표로 합니다. 데이터에 대한 의존성을 제거하고, 모델이 추가 데이터 없이도 스스로 개선할 수 있도록 하는 강화 학습(RL) 접근 방식 을 제안합니다.#Review#Large Language Models#Reinforcement Learning#Self-Play#Data-Free Training#Instruction Following#Adversarial Training#Reward Modeling2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR본 논문은 Verifiable Rewards (RLVR) 기반 Large Language Models (LLMs) 학습 시 발생하는 Pass@k 성능 한계 와 정책 엔트로피 붕괴 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Self-Play#Variational Problem Synthesis#Policy Entropy#Pass@k#Reasoning Benchmarks2025년 8월 25일댓글 수 로딩 중
[논문리뷰] R-Zero: Self-Evolving Reasoning LLM from Zero Data본 연구는 기존 LLM의 자가 진화 방식이 방대한 인간 큐레이션 데이터 에 의존하는 한계를 극복하고자 합니다.#Review#Self-Evolving LLM#Reinforcement Learning#Curriculum Learning#Reasoning#Large Language Models#Self-Play#Zero-Data Training2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-PlayVision-Language Models (VLMs)의 훈련이 고비용의 수동 주석 데이터셋 에 과도하게 의존하여 확장성과 모델의 능력 발전을 제약하는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language Models (VLMs)#Self-Play#Reinforcement Learning#Gamification#Data Efficiency#Strategic Reasoning#Multimodal AI#Self-Improvement2025년 10월 1일댓글 수 로딩 중