#Dynamic Sampling

3개의 포스트

[논문리뷰] HiconAgent: History Context-aware Policy Optimization for GUI Agents

GUI(Graphical User Interface) 에이전트가 순차적 탐색 작업을 수행할 때, 과도한 계산 오버헤드와 불필요한 정보로 인한 방해 없이 과거 컨텍스트를 효과적이고 효율적으로 활용하는 방법을 연구합니다.

#Review #GUI Agents #Reinforcement Learning #Context-aware #History Compression #Policy Optimization #Multimodal LLM #Dynamic Sampling

2025년 12월 1일

[논문리뷰] MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information

대규모 언어 모델(LLM)의 다단계 추론 과정에서 중간 단계의 품질을 효율적이고 신뢰성 있게 평가하고, 계산 비용이 높은 경로 탐색 문제를 해결하고자 합니다.

#Review #LLM Reasoning #Tree Search #Pointwise Mutual Information (PMI)#Dynamic Sampling #Beam Search #Weighted Voting #Information Theory #Computational Efficiency

2025년 10월 7일

[논문리뷰] LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning

대규모 언어 모델(LLM) 추론 태스크에서 RLVR (Reinforcement Learning with Verifiable Rewards) 훈련의 효율성을 넘어, 최종 모델의 효과성(정확도)을 개선하는 것을 목표로 합니다.

#Review #LLM Reasoning #RLVR #Dynamic Sampling #Policy Optimization #Response Length #Meta-RL #Overthinking

2025년 10월 6일