[논문리뷰] ESPO: Early-Stopping Proximal Policy Optimization본 논문은 LLM의 다단계 추론(Multi-step reasoning) 과정에서 발생하는 연산 비효율성과 잘못된 학습 신호 문제를 해결하기 위해 ESPO를 제안한다.#Review#Reinforcement Learning#Large Language Models#Proximal Policy Optimization#Early Stopping#Reasoning#Compute Efficiency#Credit Assignment2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Deep Think with Confidence본 논문은 LLM의 추론 태스크에서 self-consistency (다수결 투표) 방식의 한계점인 정확도 저하 및 높은 연산 오버헤드를 해결하는 것을 목표로 합니다. 특히, 추론 과정의 효율성과 성능을 동시에 향상시키기 위해 저품질 추론 경로를 동적으로 필터링 하는 방법을 제시합니다.#Review#LLM Reasoning#Confidence Filtering#Self-Consistency#Test-Time Optimization#Computational Efficiency#Adaptive Sampling#Early Stopping#Majority Voting2025년 8월 22일댓글 수 로딩 중
[논문리뷰] First Try Matters: Revisiting the Role of Reflection in Reasoning Models본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 '반영(reflection)'의 실제 기여도를 체계적으로 분석하는 것을 목표로 합니다. 특히, 모델이 이미 후보 답변을 생성한 후에도 계속되는 추론 단계가 오류 수정에 실질적으로 도움이 되는지, 아니면 초기 결론을 재확인하는 역할을 하는지 밝히고자 합니다.#Review#Large Language Models (LLMs)#Reasoning#Chain-of-Thought (CoT)#Reflection#Early Stopping#Supervised Fine-tuning (SFT)#Token Efficiency#Mathematical Reasoning2025년 10월 10일댓글 수 로딩 중