[논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space본 논문은 기존 RLVR의 추론 능력이 base model의 기존 출력 분포에 의해 근본적으로 제한되는 병목 현상을 해결하고자 한다. 기존의 standard RL은 특정 입력 $x$에 조건을 둔 $P(y|x)$ 최적화에 집중하며, 이는 탐색 공간의 한계와 분포 편향(distribution shift) 문제를 야기한다.#Review#Large Language Models#Reinforcement Learning#Pre-train Space#Policy Reincarnation#Negative Sample Reinforcement#Reasoning Enhancement2026년 4월 15일댓글 수 로딩 중
[논문리뷰] EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis본 논문은 EHR(Electronic Health Records) 분석에서 LLM(Large Language Models) 의 제한적인 능력, 특히 좁은 태스크 범위와 EHR 중심 추론 능력 부족 문제를 해결하고자 합니다.#Review#Electronic Health Records#Large Language Models#Reasoning Enhancement#Instruction Tuning#Reinforcement Learning#Data Synthesis#Medical AI#Clinical Decision Support2025년 10월 31일댓글 수 로딩 중