[논문리뷰] BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning본 연구는 강화 학습(RL) 과 검증 가능한 보상(Verifiable Rewards, RLVR) 이 소규모 언어 모델에게 물리적 추론 능력을 부여할 수 있는지, 또는 단순히 정답 패턴 매칭을 학습하는지에 대한 질문을 탐구합니다.#Review#Reinforcement Learning#Parameter-Efficient Fine-Tuning (PEFT)#Large Language Models (LLM)#Beam Mechanics#Verifiable Rewards#Engineering Reasoning#Structural Engineering#Group Relative Policy Optimization (GRPO)2026년 3월 4일댓글 수 로딩 중