[논문리뷰] OpenSIR: Open-Ended Self-Improving Reasoner논문은 LLM 추론 능력 향상이 인간 주석 데이터 의존성으로 확장성과 성능에 한계가 있음을 지적하며, 이 문제를 해결하고자 합니다.#Review#Open-Ended Learning#Self-Play#Reinforcement Learning#Large Language Models#Mathematical Reasoning#Problem Generation#Curriculum Learning#Reward Shaping2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning본 논문은 복잡한 추론 능력을 향상시키기 위해 어려운 수학 문제 의 생성을 확장하는 효율적인 파이프라인인 ScaleDiff 를 제안합니다. 기존의 문제 생성 방식이 높은 비용, 복잡한 프롬프트 엔지니어링, 그리고 제한적인 난이도 수준으로 인해 확장성이 부족하다는 한계를 극복하고자 합니다.#Review#Mathematical Reasoning#Large Reasoning Models (LRMs)#Difficulty Scaling#Data Augmentation#Supervised Fine-Tuning (SFT)#Problem Generation#Solution Distillation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] QueST: Incentivizing LLMs to Generate Difficult Problems본 논문은 LLM 학습에 있어 인간이 주석을 단 고품질의 어려운 코딩 문제 데이터셋이 부족하여 확장성이 제한되는 문제를 해결하고자 합니다. 특히, LLM 생성기가 더욱 도전적인 경쟁 프로그래밍 문제를 효과적으로 생성하도록 유도하는 새로운 프레임워크인 QueST 를 제안합니다.#Review#LLM#Problem Generation#Competitive Programming#Synthetic Data#Difficulty Estimation#Rejection Fine-tuning#Graph Sampling2025년 10월 21일댓글 수 로딩 중