#Iterative Optimization

3개의 포스트

[논문리뷰] Agentic-R: Learning to Retrieve for Agentic Search

본 논문은 멀티턴 에이전트 검색(agentic search)의 맥락에서 리트리버(retriever) 훈련의 한계를 극복하는 것을 목표로 합니다.

#Review #Agentic Search #Retrieval-Augmented Generation #Retriever Training #Passage Utility Modeling #Iterative Optimization #Reinforcement Learning #Large Language Models

2026년 1월 20일

[논문리뷰] SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System

본 논문은 과학 영상 이해 및 교육 분야에서 기존 멀티모달 대규모 언어 모델(MLLMs) 및 영상 에이전트 시스템의 한계를 극복하는 것을 목표로 합니다. 특히, 외부 전문 지식 통합과 엄격한 단계별 추론이 요구되는 과학 도메인에서 모델의 성능과 신뢰성을 향상시키고자 합니다.

#Review #Multi-Agent System #Video Understanding #Scientific Education #Deming Cycle #Large Language Models #Iterative Optimization #Knowledge Integration #Educational Content Generation

2025년 11월 25일

[논문리뷰] Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future

본 논문은 기존의 Self-Rewarding Language Models에서 발생하는 '그라디언트 소멸(gradient collapse) 문제' 를 해결하는 것을 목표로 합니다.

#Review #Self-Rewarding LLMs #Direct Preference Optimization (DPO)#Preference Learning #Generative AI #Gradient Collapse #LLM Alignment #Iterative Optimization

2025년 8월 12일