[논문리뷰] Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning본 논문은 LLM(Large Language Model) 훈련 시 희소한 스칼라 보상에만 의존하여 발생하는 비효율적인 탐색 문제 를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Natural Language Feedback#Exploration#Group-Level Feedback#Self-Refinement#Sample Efficiency2026년 3월 11일댓글 수 로딩 중
[논문리뷰] When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs본 논문은 Long-Context Language Models (LCLMs) 이 방대한 문맥을 처리할 수 있음에도 불구하고, 복잡한 다중 홉(multi-hop) 추론을 위해 증거를 효과적으로 구조화하고 연결하는 데 어려움 을 겪는 문제를 해결하고자 합니다.#Review#Long-Context LMs#Multi-hop Reasoning#Thought Templates#Retrieval-Augmented Generation#Natural Language Feedback#Knowledge-intensive QA#Reasoning Reuse2025년 10월 10일댓글 수 로딩 중