[논문리뷰] PIPer: On-Device Environment Setup via Online Reinforcement Learning소프트웨어 엔지니어링(SE)에서 환경 설정(environment setup)은 지속적인 과제로 남아 있으며, 기존 대규모 언어 모델(LLM)조차 이를 자동화하는 데 제한적인 성공을 보였습니다. 본 연구는 특히 온디바이스에서 실행 가능한 소형 오픈소스 LLM의 환경 설정 역량을 향상시키는 것을 목표로 합니다.#Review#Environment Setup#LLMs#Reinforcement Learning#Supervised Fine-tuning#On-device AI#Software Engineering#Verifiable Rewards2025년 10월 2일댓글 수 로딩 중