[논문리뷰] When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning최근 멀티모달 대규모 언어 모델(MLLMs)은 추론 작업에서 강력한 성능을 보여주었지만, 이러한 발전은 주로 고품질의 주석 처리된 데이터나 교사 모델(teacher-model) 증류(distillation)에 의존하고 있어 비용이 많이 들고 확장이 어렵습니다.#Review#Unsupervised Self-Evolution#Multimodal Reasoning#Consistency-Based Reward#Judge Modulation#Group Relative Policy Optimization (GRPO)#Policy Updates#Mathematical Reasoning#Large Language Models2026년 3월 25일댓글 수 로딩 중
[논문리뷰] BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning본 연구는 강화 학습(RL) 과 검증 가능한 보상(Verifiable Rewards, RLVR) 이 소규모 언어 모델에게 물리적 추론 능력을 부여할 수 있는지, 또는 단순히 정답 패턴 매칭을 학습하는지에 대한 질문을 탐구합니다.#Review#Reinforcement Learning#Parameter-Efficient Fine-Tuning (PEFT)#Large Language Models (LLM)#Beam Mechanics#Verifiable Rewards#Engineering Reasoning#Structural Engineering#Group Relative Policy Optimization (GRPO)2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Unified Personalized Reward Model for Vision Generation본 논문은 기존 멀티모달 보상 모델(RMs)이 'one-size-fits-all' 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다.#Review#Reward Model#Vision Generation#Personalized Learning#Context-Adaptive Reasoning#Direct Preference Optimization (DPO)#Reinforcement Learning (RL)#Multimodal Learning#Group Relative Policy Optimization (GRPO)2026년 2월 3일댓글 수 로딩 중
[논문리뷰] TTRV: Test-Time Reinforcement Learning for Vision Language Models이 논문은 기존의 Vision-Language Models (VLMs) 이 훈련 후 정적인 상태로 남아 레이블링된 데이터 없이 환경과 상호작용하며 추론 시점에 즉시 적응할 수 없다는 한계를 해결하고자 합니다.#Review#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Test-Time Adaptation#Unsupervised Learning#Image Recognition#Visual Question Answering (VQA)#Group Relative Policy Optimization (GRPO)#Entropy Regularization2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation본 연구는 LLM의 RL 기반 자기 개선 과정에서 발생하는 높은 연산 비용과 비효율적인 탐색 예산 할당 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Reinforcement Learning (RL)#Exploration Budget Allocation#Knapsack Problem#Group Relative Policy Optimization (GRPO)#Mathematical Reasoning#Resource Optimization2025년 10월 2일댓글 수 로딩 중