#Engineering Reasoning

1개의 포스트

[논문리뷰] BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

본 연구는 강화 학습(RL) 과 검증 가능한 보상(Verifiable Rewards, RLVR) 이 소규모 언어 모델에게 물리적 추론 능력을 부여할 수 있는지, 또는 단순히 정답 패턴 매칭을 학습하는지에 대한 질문을 탐구합니다.

#Review #Reinforcement Learning #Parameter-Efficient Fine-Tuning (PEFT)#Large Language Models (LLM)#Beam Mechanics #Verifiable Rewards #Engineering Reasoning #Structural Engineering #Group Relative Policy Optimization (GRPO)

2026년 3월 4일