#Tree Search

7개의 포스트

[SGLang] Tree Search & Verification: 트리 기반 추측과 검증

SGLang의 트리 탐색과 검증 알고리즘을 분석한다. 후보 토큰을 트리 구조로 구성하여 병렬 검증하는 방식, 트리 구축 전략, acceptance 판정을 코드와 함께 살펴본다.

#sglang #Tree Search #Verification #Token Tree #Acceptance

2026년 4월 13일

[논문리뷰] AT^2PO: Agentic Turn-based Policy Optimization via Tree Search

본 논문은 LLM 에이전트의 다중 턴(multi-turn) 작업에서 발생하는 세 가지 핵심 문제를 해결하고자 합니다.

#Review #Agentic RL #Multi-turn Tasks #Policy Optimization #Tree Search #Credit Assignment #Exploration Diversity #LLM Agents

2026년 1월 8일

[논문리뷰] TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models

본 논문은 시각적 생성 모델의 RL 후학습(post-training) 시 발생하는 막대한 계산 비용 문제를 해결하고, 기존 방법론들의 낮은 샘플 효율성 과 투박한 신용 할당 한계를 극복하여 인간의 선호도에 더 잘 부합하는 모델을 효율적으로 정렬하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Diffusion Models #Generative Models #Tree Search #Sample Efficiency #Credit Assignment #GRPO #Visual Generative Models

2025년 12월 9일

[논문리뷰] Tree Search for LLM Agent Reinforcement Learning

본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Tree Search #Policy Optimization #Preference Learning #Sparse Rewards #Multi-turn Tasks

2025년 9월 26일

[논문리뷰] Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers

논문은 대규모 언어 모델(LLM) 기반 자동화된 정리 증명 시스템에서 발생하는 훈련 시간(training-time) 확장성 과 추론 시간(inference-time) 컴퓨팅 이라는 두 가지 핵심 과제를 해결하는 것을 목표로 합니다.

#Review #LLM Step-Provers #Reinforcement Learning (RL)#Off-Policy RL #Multi-Agent Systems #Tree Search #Automated Theorem Proving (ATP)#Formal Mathematics #AlphaZero

2025년 9월 9일

[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

대규모 언어 모델(LLMs)을 강화 학습(RL)으로 정렬하는 과정에서 발생하는 높은 온-정책 롤아웃 비용 과 다양한 추론 경로 탐색의 한계 를 해결하고자 합니다. 본 논문은 시퀀스 생성을 트리 구조 검색 과정 으로 모델링하여 정책 최적화의 효율성과 추론 성능 간의 격차를 해소하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Policy Optimization #Large Language Models #Inference Efficiency #Tree Search #Segment-level Decoding #Advantage Estimation #Reasoning

2025년 8월 27일

[논문리뷰] MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information

대규모 언어 모델(LLM)의 다단계 추론 과정에서 중간 단계의 품질을 효율적이고 신뢰성 있게 평가하고, 계산 비용이 높은 경로 탐색 문제를 해결하고자 합니다.

#Review #LLM Reasoning #Tree Search #Pointwise Mutual Information (PMI)#Dynamic Sampling #Beam Search #Weighted Voting #Information Theory #Computational Efficiency

2025년 10월 7일