[논문리뷰] SPARK: Synergistic Policy And Reward Co-Evolving Framework본 논문은 대규모 언어/시각-언어 모델(LLM/LVLM)의 강화 학습(RL) 파이프라인이 겪는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#LLMs#LVLMs#Reward Modeling#Policy Optimization#Self-Reflection#Verifiable Rewards#Co-evolution2025년 9월 29일댓글 수 로딩 중
[논문리뷰] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning본 연구는 기존 SFT(Supervised Fine-Tuning) 기반 이미지 캡셔닝 모델의 한계(고비용 데이터, 제한된 일반화 및 다양성)를 극복하고자 합니다.#Review#Image Captioning#Reinforcement Learning#Verifiable Rewards#LVLMs#VQA#Data Curation#Caption Quality2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing본 연구는 대규모 시각-언어 모델(LVLM)의 자기 개선 과정에서 발생하는 '매튜 효과'를 해결하는 것을 목표로 합니다.#Review#LVLMs#Self-Improvement#Matthew Effect#Data Bias Mitigation#Distribution Reshaping#Trajectory Resampling#Visual Reasoning2025년 10월 31일댓글 수 로딩 중