[논문리뷰] The Art of Efficient Reasoning: Data, Reward, and Optimization본 논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 높은 계산 오버헤드를 줄이기 위해 효율적인 추론 메커니즘 을 체계적으로 조사하는 것을 목표로 합니다.#Review#Efficient Reasoning#Large Language Models#Reinforcement Learning#Reward Shaping#Chain-of-Thought#RL Optimization#Length Adaptation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning본 논문은 추론 언어 모델(LLM)이 불필요하게 긴 출력을 생성하는 문제를 해결하고, 토큰당 인텔리전스(정확도 대비 응답 길이)를 극대화하는 것을 목표로 합니다. 특히, 길이 패널티로 인한 정확도 저하가 패널티 설계 자체보다는 RL 최적화 기법 의 미흡함에서 비롯됨을 재조명하여 이를 개선하고자 합니다.#Review#Reinforcement Learning#Length Penalty#Reasoning Efficiency#Large Language Models#RL Optimization#Accuracy-Efficiency Trade-off#Chain-of-Thought2025년 10월 20일댓글 수 로딩 중