[논문리뷰] SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization본 논문은 검증 가능한 보상 기반 강화 학습(RLVR)에서 이진 보상(binary rewards) 의 한계(최적화 모호성, 학습 비효율성, 정책 취약성)를 해결하고자 합니다.#Review#Reinforcement Learning#Reward Shaping#Agent Optimization#GUI Automation#Complex Reasoning#Sample Efficiency#Tiered Rewards2026년 2월 1일댓글 수 로딩 중
[논문리뷰] DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry본 논문은 기존 MLLM이 치과 영상 데이터의 미세한 시각적 특징을 포착하고 정밀한 진단을 위한 충분한 추론 능력을 갖추지 못하는 한계를 해결하고자 합니다. 이를 위해 치과 분야에 특화된 DentalGPT 를 개발하여 자동화된 구강 건강 관리에서 멀티모달 복합 추론 능력을 향상시키는 것을 목표로 합니다.#Review#Multimodal Large Language Model#Dental Imaging#Complex Reasoning#Domain Adaptation#Reinforcement Learning#Medical VQA#Dental Healthcare2025년 12월 14일댓글 수 로딩 중
[논문리뷰] AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis본 논문은 대규모 언어 모델(LLM) 에이전트의 고급 추론 능력 을 확장하기 위해, 교육 이론인 근접 발달 영역(ZPD) 에서 영감을 받은 새로운 데이터 합성 접근 방식을 제안합니다.#Review#LLM Agents#Data Synthesis#Zone of Proximal Development (ZPD)#Complex Reasoning#Tool Use#Automated Benchmarking#Agentic AI#Rejection Sampling Fine-Tuning2025년 10월 29일댓글 수 로딩 중