[논문리뷰] Multi-hop Reasoning via Early Knowledge Alignment본 논문은 복잡한 다중 홉(multi-hop) 질문을 처리하는 반복적 RAG(Iterative RAG) 시스템 의 비효율적인 검색 및 추론 문제, 특히 초기 계획 단계에서의 '계획 실패(plan failure)'를 해결하는 것을 목표로 합니다.#Review#Retrieval-Augmented Generation (RAG)#Multi-hop Reasoning#Reinforcement Learning (RL)#Knowledge Alignment#Iterative RAG#Entropy Analysis#Plan Failure2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies본 논문은 기존 RL 접근 방식이 LLM을 단일 블랙박스 정책으로 취급하는 한계를 극복하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Interpretability#Transformer#Internal Policy#Entropy Analysis2025년 12월 23일댓글 수 로딩 중