[논문리뷰] Thinking Before Constraining: A Unified Decoding Framework for Large Language Models본 논문은 LLM의 풍부한 추론 능력과 엄격한 출력 형식 보장 사이의 상충 관계(trade-off)를 해결하고자 합니다. 기존의 Constrained Decoding 방식은 생성 초기부터 문법을 강제하여 모델의 추론 유연성을 제한하고 성능을 떨어뜨리는 문제를 발생시킵니다.#Review#Large Language Models#Constrained Decoding#Structured Generation#Chain-of-Thought#Parser2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Blockwise Advantage Estimation for Multi-Objective RL with Verifiable RewardsGRPO(Group Relative Policy Optimization) 와 같은 기존 RL 방법론이 단일 스칼라 어드밴티지를 사용하여 구조화된 LLM 생성에서 목적 함수 간 간섭과 잘못된 크레딧 할당을 야기하는 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLMs#Credit Assignment#Multi-Objective Optimization#Advantage Estimation#Calibration#Structured Generation#Group Relative Policy Optimization2026년 2월 11일댓글 수 로딩 중