#Entropy Analysis

2개의 포스트

[논문리뷰] Multi-hop Reasoning via Early Knowledge Alignment

본 논문은 복잡한 다중 홉(multi-hop) 질문을 처리하는 반복적 RAG(Iterative RAG) 시스템 의 비효율적인 검색 및 추론 문제, 특히 초기 계획 단계에서의 '계획 실패(plan failure)'를 해결하는 것을 목표로 합니다.

#Review #Retrieval-Augmented Generation (RAG)#Multi-hop Reasoning #Reinforcement Learning (RL)#Knowledge Alignment #Iterative RAG #Entropy Analysis #Plan Failure

2025년 12월 24일

[논문리뷰] Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

본 논문은 기존 RL 접근 방식이 LLM을 단일 블랙박스 정책으로 취급하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Interpretability #Transformer #Internal Policy #Entropy Analysis

2025년 12월 23일