[논문리뷰] Agentic-R: Learning to Retrieve for Agentic Search본 논문은 멀티턴 에이전트 검색(agentic search)의 맥락에서 리트리버(retriever) 훈련의 한계를 극복하는 것을 목표로 합니다.#Review#Agentic Search#Retrieval-Augmented Generation#Retriever Training#Passage Utility Modeling#Iterative Optimization#Reinforcement Learning#Large Language Models2026년 1월 20일댓글 수 로딩 중
[논문리뷰] SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System본 논문은 과학 영상 이해 및 교육 분야에서 기존 멀티모달 대규모 언어 모델(MLLMs) 및 영상 에이전트 시스템의 한계를 극복하는 것을 목표로 합니다. 특히, 외부 전문 지식 통합과 엄격한 단계별 추론이 요구되는 과학 도메인에서 모델의 성능과 신뢰성을 향상시키고자 합니다.#Review#Multi-Agent System#Video Understanding#Scientific Education#Deming Cycle#Large Language Models#Iterative Optimization#Knowledge Integration#Educational Content Generation2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future본 논문은 기존의 Self-Rewarding Language Models에서 발생하는 '그라디언트 소멸(gradient collapse) 문제' 를 해결하는 것을 목표로 합니다.#Review#Self-Rewarding LLMs#Direct Preference Optimization (DPO)#Preference Learning#Generative AI#Gradient Collapse#LLM Alignment#Iterative Optimization2025년 8월 12일댓글 수 로딩 중