[논문리뷰] F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking본 논문은 LLM 기반의 검색 및 추천 시스템에서 발생하는 결합된 list-to-rank 최적화 문제를 해결하고자 한다. 기존의 Black-box LLM 접근법은 후보군 생성과 순위 결정을 단일 결과물로 출력하여 두 과정 간의 기여도를 명확히 구분하지 못하는 한계가 있다.#Review#LLM#Reinforcement Learning#Retrieval & Ranking#GRPO#Factorized Policy#Sequential Recommendation#Multi-hop Question Answering2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis현재 대규모 언어 모델(LLM)이 다단계(multi-hop) 질문 답변 태스크에서 환각(hallucination)을 보이거나 추론에 실패하는 근본적인 원인을 진단하는 것이 주된 목표입니다.#Review#Multi-hop Question Answering#Large Language Models#Reasoning Errors#Error Taxonomy#Human Evaluation#Automated Evaluation#Overthinking2025년 8월 8일댓글 수 로딩 중