[논문리뷰] V_{0.5}: Generalist Value Model as a Prior for Sparse RL RolloutsRLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 정책 경사(policy gradients)의 안정성을 저해하는 희소 롤아웃(sparse rollouts) 으로 인한 높은 분산을 해결하고, 일반화된 가치 모델(Generalist Value Model)의 편향(bias) 문제를 완화하여, 안정적이고 효율적인 정책 학습을 가능하게 하는 강건한 어드밴티지…#Review#Reinforcement Learning#Value Models#Advantage Baseline#Sparse Rollouts#Shrinkage Estimation#Sequential Analysis#LLM Fine-tuning#Mathematical Reasoning2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Defeating the Training-Inference Mismatch via FP16대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 불안정성의 근본 원인인 훈련-추론 불일치(training-inference mismatch) 를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM Fine-tuning#Training-Inference Mismatch#Floating Point Precision#FP16#BF16#RL Stability2025년 11월 9일댓글 수 로딩 중
[논문리뷰] QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models본 논문은 대규모 언어 모델(LLM)의 효율적인 배포를 위해 양자화-인식(Quantization-Aware) PEFT (Parameter-Efficient Fine-Tuning) 방법을 개발하여, 양자화된 모델의 낮은 비트 환경에서 정확도를 높이고 동시에 훈련 효율성을 개선 하는 것을 목표로 합니다.#Review#LLM Fine-tuning#Quantization-Aware PEFT#Walsh-Hadamard Transform#Sparse Adaptation#Low-bit Quantization#Parameter-Efficient Learning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] AWorld: Orchestrating the Training Recipe for Agentic AI본 논문은 에이전트 AI 시스템 개발의 핵심 병목인 비효율적인 경험 생성(experience generation) 문제를 해결하여, 복잡한 환경에서 '학습을 통한 실천(learning from practice)' 패러다임을 실용적이고 확장 가능하게 만드는 것을 목표로 합니다.#Review#Agentic AI#Reinforcement Learning#Distributed Systems#Experience Generation#LLM Fine-tuning#GAIA Benchmark#Scalability#AWORLD Framework2025년 8월 29일댓글 수 로딩 중