[논문리뷰] Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering본 논문은 지식 집약적 QA 작업에서 LLM의 사실적 정확도를 높이기 위한 효율적인 보상 신호가 부족하다는 점을 문제로 지적합니다.#Review#Reinforcement Learning#Factuality#Process Supervision#Wikipedia#Co-occurrence#Large Language Models#GRPO2026년 5월 28일댓글 수 로딩 중
[논문리뷰] LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction본 논문은 LoopCTR을 제안하며, 이는 재귀적 루프 블록을 통해 파라미터 효율성을 극대화한 Sandwich architecture를 채택한다. Loop Block 내의 표현력을 높이기 위해 MoE-Augmented Transformer를 적용하고, Hyper-Connected Residuals (HCR)를 도입하여 정보 흐름을 동적으로 조정한다 .#Review#CTR Prediction#Loop Scaling#Transformer#Mixture-of-Experts#Hyper-Connected Residuals#Parameter Efficiency#Process Supervision2026년 4월 21일댓글 수 로딩 중
[논문리뷰] MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning비디오 기반 MLLM(Multimodal Large Language Models)에서 발생하는 프로세스 불일치(process inconsistency) 문제를 해결하여, 모델이 올바른 최종 답변을 도출하더라도 중간 추론 과정이 비디오의 시간적 역동성에서 벗어나는 한계를 극복하는 것을 목표로 합니다.#Review#Video Temporal Reasoning#Reinforcement Learning#Process Supervision#Dynamic Time Warping#Multimodal Large Language Models#Video State Prediction#Reward Hacking2025년 9월 26일댓글 수 로딩 중
[논문리뷰] COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes대규모 언어 모델(LLM)이 비영어권, 특히 중국어 창의적 글쓰기에서 겪는 체계적인 결함(예: 예측 가능한 내러티브, 스타일 다양성 부족, 문화적 비정합성)을 해결하는 것을 목표로 합니다.#Review#Chinese Creative Writing#Process Supervision#LLM Training#Dataset Creation#Cross-Lingual Transfer#Narrative Logic#Linguistic Expression#Type-Token Ratio2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned이 논문은 대규모 언어 모델(LLM)의 추론 신뢰성을 향상시키는 프로세스 보상 모델(PRM)을 시각-언어 모델(VLM) 영역으로 확장하고자 합니다.#Review#Vision-Language Models (VLMs)#Process Reward Models (PRMs)#Multimodal Reasoning#Test-Time Scaling (TTS)#Process Supervision#Dataset Construction#Perception Errors#MCTS2025년 10월 2일댓글 수 로딩 중