[논문리뷰] HiconAgent: History Context-aware Policy Optimization for GUI AgentsGUI(Graphical User Interface) 에이전트가 순차적 탐색 작업을 수행할 때, 과도한 계산 오버헤드와 불필요한 정보로 인한 방해 없이 과거 컨텍스트를 효과적이고 효율적으로 활용하는 방법을 연구합니다.#Review#GUI Agents#Reinforcement Learning#Context-aware#History Compression#Policy Optimization#Multimodal LLM#Dynamic Sampling2025년 12월 1일댓글 수 로딩 중
[논문리뷰] MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information대규모 언어 모델(LLM)의 다단계 추론 과정에서 중간 단계의 품질을 효율적이고 신뢰성 있게 평가하고, 계산 비용이 높은 경로 탐색 문제를 해결하고자 합니다.#Review#LLM Reasoning#Tree Search#Pointwise Mutual Information (PMI)#Dynamic Sampling#Beam Search#Weighted Voting#Information Theory#Computational Efficiency2025년 10월 7일댓글 수 로딩 중
[논문리뷰] LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning대규모 언어 모델(LLM) 추론 태스크에서 RLVR (Reinforcement Learning with Verifiable Rewards) 훈련의 효율성을 넘어, 최종 모델의 효과성(정확도)을 개선하는 것을 목표로 합니다.#Review#LLM Reasoning#RLVR#Dynamic Sampling#Policy Optimization#Response Length#Meta-RL#Overthinking2025년 10월 6일댓글 수 로딩 중