#Tool Learning

14개의 포스트

[논문리뷰] Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It

본 논문은 다단계 도구 사용 태스크에서 RL 기반 최적화가 겪는 학습 불안정성과 성능 정체 문제를 해결하고자 합니다.

#Review #Tool Learning #Reinforcement Learning #Structural Collapse #Supervisory Signals #Interleaved Training #Process Reflection Supervision

2026년 6월 25일

[논문리뷰] ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

본 논문은 LLM의 도구 사용 능력을 평가할 때 기존의 End-to-End 방식이 모델의 내부 지식(Parametric Knowledge)과 추론 능력을 명확히 구분하지 못하는 한계를 해결하기 위해 제안되었습니다.

#Review #LLM #Tool Learning #Parametric Knowledge #Diagnostic Framework #Tool Auditing #Evaluation

2026년 6월 11일

[논문리뷰] Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning

본 논문은 기존 MLLM 기반 에이전트들이 3D 공간 추론 작업에서 장면의 특성을 무시하고 획일적인 툴 사용 전략을 취함으로써 성능이 저하되는 문제를 해결하고자 한다.

#Review #Agentic AI #3D Spatial Reasoning #Scene-Aware Skills #Tool Learning #Skill Evolution

2026년 6월 8일

[논문리뷰] AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process

본 논문은 기존 VLM(Vision-Language Model) 평가의 한계를 극복하고 적응형 멀티모달 추론 능력을 종합적으로 평가하는 벤치마크를 제안합니다.

#Review #Multimodal Reasoning #Adaptive Learning #Vision-Language Models (VLMs)#Benchmarking #Mode Selection #Tool Learning #Reasoning Process Evaluation #Matthews Correlation Coefficient (MCC)

2026년 2월 3일

[논문리뷰] Toward Efficient Agents: Memory, Tool learning, and Planning

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템의 실제 배포에 필수적인 효율성 문제를 종합적으로 다루는 것을 목표로 합니다.

#Review #LLM Agents #Agent Efficiency #Memory Management #Tool Learning #AI Planning #Resource Optimization #Cost-Performance Trade-off

2026년 1월 20일

[논문리뷰] Nested Browser-Use Learning for Agentic Information Seeking

정보 탐색(IS) 에이전트의 현재 브라우저 도구 사용이 API 수준의 스니펫 검색 및 URL 기반 페이지 가져오기에 국한되어 실제 브라우징을 통한 풍부한 정보 접근이 제한되는 문제를 해결하고자 합니다.

#Review #Agentic Information Seeking #LLM Agents #Browser Automation #Nested Framework #Tool Learning #Context Efficiency #Deep Web

2025년 12월 29일

[논문리뷰] Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

본 논문은 기존 MLLM(Multimodal Large Language Models) 이 복잡한 VideoQA(Video Question Answering) 태스크에서 시공간적 관계 모델링 및 시간적 진화의 인과적 역학을 이해하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #VideoQA #MLLMs #Tool Learning #Spatiotemporal Reasoning #Video Toolkit #Agentic AI

2025년 12월 11일

[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images

본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.

#Review #Multimodal LLM #Tool Learning #Code Generation #Reinforcement Learning #Image Manipulation #Robustness #Error Recovery #Programming Vision

2025년 12월 3일

[논문리뷰] LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

기존 LLM 툴 학습의 정적 합성 데이터 파이프라인 이 모델의 약점에 적응하지 못하고 노이즈 있는 레이블을 유지하여 훈련 효율성을 저해하는 문제를 해결합니다.

#Review #Large Language Models (LLMs)#Tool Learning #Data Generation #Model Training #Closed-Loop Framework #Reinforcement Learning (RL)#Data Refinement #Self-Correction

2025년 11월 12일

[논문리뷰] Explain Before You Answer: A Survey on Compositional Visual Reasoning

본 설문조사는 복잡한 시각적 장면을 분해하고, 중간 개념을 이해하며, 다단계 논리적 추론을 수행하는 인간과 같은 능력을 기계에 부여하는 것을 목표로 하는 Compositional Visual Reasoning (CVR) 분야의 진화를 체계적으로 분석합니다.

#Review #Compositional Visual Reasoning #Multimodal AI #Vision-Language Models #Large Language Models #Chain-of-Thought #Tool Learning #Agentic AI #Survey

2025년 8월 26일

[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action

본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 저수준 GUI 원시 액션에만 의존하여 발생하는 비효율성과 오류 전파 문제를 해결하고자 합니다.

#Review #Computer Use Agents #Hybrid Action #Foundation Models #Reinforcement Learning #Supervised Fine-tuning #Synthetic Data Generation #Tool Learning #GUI Automation

2025년 10월 21일

[논문리뷰] Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

본 논문은 지식 기반 시각 질문 답변(KB-VQA) 태스크에서 멀티모달 쿼리의 품질과 검색 결과의 관련성 이 부족하여 발생하는 문제를 해결하는 것을 목표로 합니다.

#Review #Visual Question Answering #Retrieval-Augmented Generation #Multimodal AI #Reinforcement Learning #Knowledge Base #Tool Learning #Information Filtering

2025년 10월 21일

[논문리뷰] Agentic Entropy-Balanced Policy Optimization

본 논문은 Agentic Reinforcement Learning(RL)에서 멀티턴, 장기적 도구 사용 능력 학습 시 발생하는 엔트로피 관련 문제, 특히 롤아웃 단계의 과도한 분기(High-entropy Rollout Collapse) 와 정책 업데이트 단계의 기울기 소실(High-entropy Token Gradient Clipping) 을 해결하여 안정적이고 확장 가능한 웹 에이전트 훈련을 목표로 합니다.

#Review #Agentic Reinforcement Learning #Web Agents #Tool Learning #Entropy Balancing #Policy Optimization #Rollout Strategy #Large Language Models

2025년 10월 17일

[논문리뷰] Mem-α: Learning Memory Construction via Reinforcement Learning

대규모 언어 모델(LLM) 에이전트의 제한된 컨텍스트 윈도우 문제를 해결하기 위해, 기존의 외부 메모리 시스템이 사전에 정의된 규칙에만 의존하여 메모리 구축이 최적화되지 못하는 한계를 극복하는 것이 목표입니다.

#Review #LLM Agents #External Memory #Reinforcement Learning #Memory Management #Long-Context Understanding #Tool Learning #RAG #Memory Architecture

2025년 10월 1일