#Reasoning Enhancement

2개의 포스트

[논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

본 논문은 기존 RLVR의 추론 능력이 base model의 기존 출력 분포에 의해 근본적으로 제한되는 병목 현상을 해결하고자 한다. 기존의 standard RL은 특정 입력 $x$에 조건을 둔 $P(y|x)$ 최적화에 집중하며, 이는 탐색 공간의 한계와 분포 편향(distribution shift) 문제를 야기한다.

#Review #Large Language Models #Reinforcement Learning #Pre-train Space #Policy Reincarnation #Negative Sample Reinforcement #Reasoning Enhancement

2026년 4월 15일

[논문리뷰] EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

본 논문은 EHR(Electronic Health Records) 분석에서 LLM(Large Language Models) 의 제한적인 능력, 특히 좁은 태스크 범위와 EHR 중심 추론 능력 부족 문제를 해결하고자 합니다.

#Review #Electronic Health Records #Large Language Models #Reasoning Enhancement #Instruction Tuning #Reinforcement Learning #Data Synthesis #Medical AI #Clinical Decision Support

2025년 10월 31일