[논문리뷰] AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process본 논문은 기존 VLM(Vision-Language Model) 평가의 한계를 극복하고 적응형 멀티모달 추론 능력을 종합적으로 평가하는 벤치마크를 제안합니다.#Review#Multimodal Reasoning#Adaptive Learning#Vision-Language Models (VLMs)#Benchmarking#Mode Selection#Tool Learning#Reasoning Process Evaluation#Matthews Correlation Coefficient (MCC)2026년 2월 3일댓글 수 로딩 중
[논문리뷰] Toward Efficient Agents: Memory, Tool learning, and Planning본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템의 실제 배포에 필수적인 효율성 문제를 종합적으로 다루는 것을 목표로 합니다.#Review#LLM Agents#Agent Efficiency#Memory Management#Tool Learning#AI Planning#Resource Optimization#Cost-Performance Trade-off2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Nested Browser-Use Learning for Agentic Information Seeking정보 탐색(IS) 에이전트의 현재 브라우저 도구 사용이 API 수준의 스니펫 검색 및 URL 기반 페이지 가져오기에 국한되어 실제 브라우징을 통한 풍부한 정보 접근이 제한되는 문제를 해결하고자 합니다.#Review#Agentic Information Seeking#LLM Agents#Browser Automation#Nested Framework#Tool Learning#Context Efficiency#Deep Web2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task본 논문은 기존 MLLM(Multimodal Large Language Models) 이 복잡한 VideoQA(Video Question Answering) 태스크에서 시공간적 관계 모델링 및 시간적 진화의 인과적 역학을 이해하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#VideoQA#MLLMs#Tool Learning#Spatiotemporal Reasoning#Video Toolkit#Agentic AI2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.#Review#Multimodal LLM#Tool Learning#Code Generation#Reinforcement Learning#Image Manipulation#Robustness#Error Recovery#Programming Vision2025년 12월 3일댓글 수 로딩 중
[논문리뷰] LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls기존 LLM 툴 학습의 정적 합성 데이터 파이프라인 이 모델의 약점에 적응하지 못하고 노이즈 있는 레이블을 유지하여 훈련 효율성을 저해하는 문제를 해결합니다.#Review#Large Language Models (LLMs)#Tool Learning#Data Generation#Model Training#Closed-Loop Framework#Reinforcement Learning (RL)#Data Refinement#Self-Correction2025년 11월 12일댓글 수 로딩 중
[논문리뷰] Explain Before You Answer: A Survey on Compositional Visual Reasoning본 설문조사는 복잡한 시각적 장면을 분해하고, 중간 개념을 이해하며, 다단계 논리적 추론을 수행하는 인간과 같은 능력을 기계에 부여하는 것을 목표로 하는 Compositional Visual Reasoning (CVR) 분야의 진화를 체계적으로 분석합니다.#Review#Compositional Visual Reasoning#Multimodal AI#Vision-Language Models#Large Language Models#Chain-of-Thought#Tool Learning#Agentic AI#Survey2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Agentic Entropy-Balanced Policy Optimization본 논문은 Agentic Reinforcement Learning(RL)에서 멀티턴, 장기적 도구 사용 능력 학습 시 발생하는 엔트로피 관련 문제, 특히 롤아웃 단계의 과도한 분기(High-entropy Rollout Collapse) 와 정책 업데이트 단계의 기울기 소실(High-entropy Token Gradient Clipping) 을 해결하여 안정적이고 확장 가능한 웹 에이전트 훈련을 목표로 합니다.#Review#Agentic Reinforcement Learning#Web Agents#Tool Learning#Entropy Balancing#Policy Optimization#Rollout Strategy#Large Language Models2025년 10월 17일댓글 수 로딩 중
[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 저수준 GUI 원시 액션에만 의존하여 발생하는 비효율성과 오류 전파 문제를 해결하고자 합니다.#Review#Computer Use Agents#Hybrid Action#Foundation Models#Reinforcement Learning#Supervised Fine-tuning#Synthetic Data Generation#Tool Learning#GUI Automation2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering본 논문은 지식 기반 시각 질문 답변(KB-VQA) 태스크에서 멀티모달 쿼리의 품질과 검색 결과의 관련성 이 부족하여 발생하는 문제를 해결하는 것을 목표로 합니다.#Review#Visual Question Answering#Retrieval-Augmented Generation#Multimodal AI#Reinforcement Learning#Knowledge Base#Tool Learning#Information Filtering2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Mem-α: Learning Memory Construction via Reinforcement Learning대규모 언어 모델(LLM) 에이전트의 제한된 컨텍스트 윈도우 문제를 해결하기 위해, 기존의 외부 메모리 시스템이 사전에 정의된 규칙에만 의존하여 메모리 구축이 최적화되지 못하는 한계를 극복하는 것이 목표입니다.#Review#LLM Agents#External Memory#Reinforcement Learning#Memory Management#Long-Context Understanding#Tool Learning#RAG#Memory Architecture2025년 10월 1일댓글 수 로딩 중