#LLM Fine-tuning

4개의 포스트

[논문리뷰] V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

arXiv에 게시된 'V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #Value Models #Advantage Baseline #Sparse Rollouts #Shrinkage Estimation #Sequential Analysis #LLM Fine-tuning #Mathematical Reasoning

2026년 3월 11일

[논문리뷰] Defeating the Training-Inference Mismatch via FP16

arXiv에 게시된 'Defeating the Training-Inference Mismatch via FP16' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #LLM Fine-tuning #Training-Inference Mismatch #Floating Point Precision #FP16 #BF16 #RL Stability

2025년 11월 9일

[논문리뷰] QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models

Jae-Joon Kim이 arXiv에 게시한 'QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Fine-tuning #Quantization-Aware PEFT #Walsh-Hadamard Transform #Sparse Adaptation #Low-bit Quantization #Parameter-Efficient Learning

2025년 9월 23일

[논문리뷰] AWorld: Orchestrating the Training Recipe for Agentic AI

Qintong Wu이 arXiv에 게시한 'AWorld: Orchestrating the Training Recipe for Agentic AI' 논문에 대한 자세한 리뷰입니다.

#Review #Agentic AI #Reinforcement Learning #Distributed Systems #Experience Generation #LLM Fine-tuning #GAIA Benchmark #Scalability #AWORLD Framework

2025년 8월 29일