#Agentic Workflow

11개의 포스트

[논문리뷰] TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search

본 논문은 복잡한 Deep Search 과정에서 에이전트가 단일 선형 궤적을 맹목적으로 따르거나, 체계적인 규칙 없이 분기를 탐색하여 예산을 낭비하는 문제를 해결합니다.

#Review #Deep Search #Tree-Structured Search #Tree-Search #TreeMem #Textual UCB #Branch-and-Return #Agentic Workflow

2026년 6월 11일

[논문리뷰] Personal AI Agent for Camera Roll VQA

본 연구는 사용자 개인의 Camera Roll 전체를 대상으로 대화형 AI가 사진을 검색하고 질의에 응답하는 VQA 설정에서의 한계를 해결하고자 한다.

#Review #Personal AI Agent #Camera Roll #Visual Question Answering #Long-horizon Memory #Hierarchical Memory #Multimodal LLM #Agentic Workflow

2026년 6월 4일

[논문리뷰] Benchmark Everything Everywhere All at Once

본 논문은 기존의 수동적인 벤치마크 구축 방식이 가진 한계인 노동 집약성, 재사용 불가능성, 그리고 모델 성능 향상에 따른 빠른 벤치마크 포화(Saturation) 문제를 해결하고자 합니다.

#Review #Benchmark Agent #Autonomous Evaluation #Benchmark Construction #MLLM-as-a-Judge #Agentic Workflow #Performance Saturation

2026년 6월 4일

[논문리뷰] 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

본 논문은 현대 3D 생성 분야에서 Procedural Code 생성을 통한 모델링의 중요성이 커지고 있으나, 이를 객관적으로 평가할 수 있는 표준화된 벤치마크가 부재하다는 문제점을 해결하고자 합니다 .

#Review #3D Modeling #Procedural Generation #Vision-Language Models #Agentic Workflow #Benchmark #Human-Preference #Blender

2026년 6월 1일

[논문리뷰] When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

본 연구는 클라우드 기반의 고성능 Frontier 모델과 에지 장치 기반의 고효율 SLM(Small Language Model)을 통합하는 하이브리드 Multi-Agent System(MAS)의 설계 공간을 체계적으로 탐구합니다.

#Review #Multi-Agent Systems #Hybrid AI #Edge Inference #Cloud Agents #Agentic Workflow #KV-cache #Model Routing

2026년 5월 28일

[논문리뷰] SkillOpt: Executive Strategy for Self-Evolving Agent Skills

본 논문은 LLM 기반 에이전트가 복잡한 환경에서 스킬을 재사용할 때 발생하는 비효율성과 적응력 저하 문제를 해결합니다. 기존의 정적인 스킬 라이브러리는 에이전트의 다양한 상황 대응 능력을 제한하며, 스킬 간의 Dependencies를 고려하지 못한 실행은 성능 저하를 초래합니다.

#Review #Self-Evolving Agent #Skill Optimization #Executive Strategy #Hierarchical Planning #Agentic Workflow #Skill Library

2026년 5월 24일

[논문리뷰] π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

본 논문은 Personal Assistant Agent가 장기적인 프로젝트나 업무 환경에서 능동적으로 의도(Hidden Intents)를 파악하고 대응하지 못하는 한계를 해결하고자 한다.

#Review #Proactive Personal Assistant Agents #Long-Horizon Workflows #Hidden Intents #Benchmark #Task Completion #Agentic Workflow

2026년 5월 21일

[논문리뷰] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

본 논문은 오픈 엔드 이미지 생성이 단순한 텍스트 프롬프트 기반의 task를 넘어, 모델의 내부 지식과 외부 리소스를 효과적으로 결합해야 하는 복잡한 에이전트 과정임을 강조합니다.

#Review #Image Generation #Agentic Workflow #Self-Evolving #Visual Experience Distillation #Tool-Orchestrated #On-Policy Distillation #Multimodal Agent

2026년 5월 21일

[논문리뷰] R^3-SQL: Ranking Reward and Resampling for Text-to-SQL

본 연구는 기존 Text-to-SQL 시스템의 순위 결정(Ranking) 과정에서 발생하는 Functional Inconsistency와 Bounded Recall이라는 두 가지 핵심 과제를 해결하는 데 목적을 둡니다.

#Review #Text-to-SQL #Ranking #Resampling #Functional Inconsistency #Bounded Recall #Agentic Workflow

2026년 5월 10일

[논문리뷰] Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

본 논문은 실무 환경에서 널리 사용되는 agentic workflow의 구축이 현재 전적으로 수동적인 엔지니어링에 의존하고 있어, 자동화 및 확장성에 한계가 있다는 문제를 해결하고자 한다.

#Review #Agentic Workflow #Benchmark #Large Language Models #Visual Programming #Executable Workflow #Task Automation

2026년 4월 21일

[논문리뷰] QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies

본 논문은 400개의 트레이딩 전략 생성 태스크로 구성된 데이터셋을 바탕으로, Compilation, Backtest, Trade, Judge라는 4단계 순차적 검증 파이프라인을 제안한다. 실험은 단일 시도(Single-turn)와 반복 수정이 가능한 Agentic multi-turn 설정에서 진행되었다 .

#Review #QuantCode-Bench #Large Language Models #Algorithmic Trading #Backtrader #Code Generation #Agentic Workflow #Domain-Specific Benchmarking

2026년 4월 19일