[SGLang] Tree Search & Verification: 트리 기반 추측과 검증SGLang의 트리 탐색과 검증 알고리즘을 분석한다. 후보 토큰을 트리 구조로 구성하여 병렬 검증하는 방식, 트리 구축 전략, acceptance 판정을 코드와 함께 살펴본다.#sglang#Tree Search#Verification#Token Tree#Acceptance2026년 4월 13일댓글 수 로딩 중
[논문리뷰] AT^2PO: Agentic Turn-based Policy Optimization via Tree Search본 논문은 LLM 에이전트의 다중 턴(multi-turn) 작업에서 발생하는 세 가지 핵심 문제를 해결하고자 합니다.#Review#Agentic RL#Multi-turn Tasks#Policy Optimization#Tree Search#Credit Assignment#Exploration Diversity#LLM Agents2026년 1월 8일댓글 수 로딩 중
[논문리뷰] TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models본 논문은 시각적 생성 모델의 RL 후학습(post-training) 시 발생하는 막대한 계산 비용 문제를 해결하고, 기존 방법론들의 낮은 샘플 효율성 과 투박한 신용 할당 한계를 극복하여 인간의 선호도에 더 잘 부합하는 모델을 효율적으로 정렬하는 것을 목표로 합니다.#Review#Reinforcement Learning#Diffusion Models#Generative Models#Tree Search#Sample Efficiency#Credit Assignment#GRPO#Visual Generative Models2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Tree Search for LLM Agent Reinforcement Learning본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.#Review#LLM Agents#Reinforcement Learning#Tree Search#Policy Optimization#Preference Learning#Sparse Rewards#Multi-turn Tasks2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers논문은 대규모 언어 모델(LLM) 기반 자동화된 정리 증명 시스템에서 발생하는 훈련 시간(training-time) 확장성 과 추론 시간(inference-time) 컴퓨팅 이라는 두 가지 핵심 과제를 해결하는 것을 목표로 합니다.#Review#LLM Step-Provers#Reinforcement Learning (RL)#Off-Policy RL#Multi-Agent Systems#Tree Search#Automated Theorem Proving (ATP)#Formal Mathematics#AlphaZero2025년 9월 9일댓글 수 로딩 중
[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling대규모 언어 모델(LLMs)을 강화 학습(RL)으로 정렬하는 과정에서 발생하는 높은 온-정책 롤아웃 비용 과 다양한 추론 경로 탐색의 한계 를 해결하고자 합니다. 본 논문은 시퀀스 생성을 트리 구조 검색 과정 으로 모델링하여 정책 최적화의 효율성과 추론 성능 간의 격차를 해소하는 것을 목표로 합니다.#Review#Reinforcement Learning#Policy Optimization#Large Language Models#Inference Efficiency#Tree Search#Segment-level Decoding#Advantage Estimation#Reasoning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information대규모 언어 모델(LLM)의 다단계 추론 과정에서 중간 단계의 품질을 효율적이고 신뢰성 있게 평가하고, 계산 비용이 높은 경로 탐색 문제를 해결하고자 합니다.#Review#LLM Reasoning#Tree Search#Pointwise Mutual Information (PMI)#Dynamic Sampling#Beam Search#Weighted Voting#Information Theory#Computational Efficiency2025년 10월 7일댓글 수 로딩 중