[논문리뷰] Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data본 논문은 기존의 인간 감독 및 데이터셋 구축에 의존하는 LLM 도구 학습 의 확장성 문제를 해결하고자 합니다. 사전 데이터 없이 약한 LLM이 스스로 도구 사용 능력을 학습하여 범용 도구 호출 에이전트 로 발전할 수 있는 자기 진화 프레임워크 Tool-R0 을 제안합니다.#Review#Large Language Models (LLMs)#Self-Play Reinforcement Learning (RL)#Tool-Learning#Zero-Data Learning#LLM Agents#Curriculum Learning#Reward Shaping#Co-evolution2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision과학적 추론 태스크에서 대규모 언어 모델(LLM)의 취약한 성능을 개선하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 솔루션 평가와 검증 전략의 다양성 부족 문제, 그리고 제한된 감독 환경에서의 자가 진화 프레임워크 개발이라는 과제를 해결하고자 합니다.#Review#LLM#Scientific Reasoning#Co-evolution#Reinforcement Learning#Sparse Supervision#Geometric Consensus#Self-Play#Verifier2026년 2월 12일댓글 수 로딩 중
[논문리뷰] G-LNS: Generative Large Neighborhood Search for LLM-Based Automatic Heuristic Design기존 LLM 기반 Automated Heuristic Design (AHD) 방법론이 고정된 휴리스틱 형태(구성 규칙 또는 매개변수화된 지역 탐색) 에 국한되어 탐색 공간을 제한하고 복잡한 조합 최적화 문제(COPs)에서 깊은 지역 최적해 를 탈출하기 어려운 문제를 해결하는 것이 목표입니다.#Review#Large Language Models (LLMs)#Automated Heuristic Design (AHD)#Large Neighborhood Search (LNS)#Combinatorial Optimization#Evolutionary Algorithm#Destroy Repair Operators#Co-evolution2026년 2월 11일댓글 수 로딩 중
[논문리뷰] GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators본 논문은 대규모 언어 모델(LLM) 에이전트 훈련의 주요 병목인 높은 비용과 실세계 상호작용 데이터의 정적인 특성을 해결하고자 합니다.#Review#LLM Agents#Environment Simulation#Co-evolution#Curriculum Learning#Data Efficiency#Reinforcement Learning#Adaptive Simulation#Difficulty Alignment2025년 12월 22일댓글 수 로딩 중
[논문리뷰] SPARK: Synergistic Policy And Reward Co-Evolving Framework본 논문은 대규모 언어/시각-언어 모델(LLM/LVLM)의 강화 학습(RL) 파이프라인이 겪는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#LLMs#LVLMs#Reward Modeling#Policy Optimization#Self-Reflection#Verifiable Rewards#Co-evolution2025년 9월 29일댓글 수 로딩 중