[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language ModelsarXiv에 게시된 'DiRL: An Efficient Post-Training Framework for Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Language Models#Post-Training#Reinforcement Learning#GRPO#FlexAttention#LMDeploy#Math Reasoning#SFT2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Compressing Chain-of-Thought in LLMs via Step EntropyZhijian Xu이 arXiv에 게시한 'Compressing Chain-of-Thought in LLMs via Step Entropy' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Chain-of-Thought#CoT Compression#Step Entropy#Reinforcement Learning#SFT#GRPO2025년 8월 12일댓글 수 로딩 중