[논문리뷰] TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search본 논문은 복잡한 Deep Search 과정에서 에이전트가 단일 선형 궤적을 맹목적으로 따르거나, 체계적인 규칙 없이 분기를 탐색하여 예산을 낭비하는 문제를 해결합니다.#Review#Deep Search#Tree-Structured Search#Tree-Search#TreeMem#Textual UCB#Branch-and-Return#Agentic Workflow2026년 6월 11일댓글 수 로딩 중
[논문리뷰] Personal AI Agent for Camera Roll VQA본 연구는 사용자 개인의 Camera Roll 전체를 대상으로 대화형 AI가 사진을 검색하고 질의에 응답하는 VQA 설정에서의 한계를 해결하고자 한다.#Review#Personal AI Agent#Camera Roll#Visual Question Answering#Long-horizon Memory#Hierarchical Memory#Multimodal LLM#Agentic Workflow2026년 6월 4일댓글 수 로딩 중
[논문리뷰] Benchmark Everything Everywhere All at Once본 논문은 기존의 수동적인 벤치마크 구축 방식이 가진 한계인 노동 집약성, 재사용 불가능성, 그리고 모델 성능 향상에 따른 빠른 벤치마크 포화(Saturation) 문제를 해결하고자 합니다.#Review#Benchmark Agent#Autonomous Evaluation#Benchmark Construction#MLLM-as-a-Judge#Agentic Workflow#Performance Saturation2026년 6월 4일댓글 수 로딩 중
[논문리뷰] 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code본 논문은 현대 3D 생성 분야에서 Procedural Code 생성을 통한 모델링의 중요성이 커지고 있으나, 이를 객관적으로 평가할 수 있는 표준화된 벤치마크가 부재하다는 문제점을 해결하고자 합니다 .#Review#3D Modeling#Procedural Generation#Vision-Language Models#Agentic Workflow#Benchmark#Human-Preference#Blender2026년 6월 1일댓글 수 로딩 중
[논문리뷰] When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems본 연구는 클라우드 기반의 고성능 Frontier 모델과 에지 장치 기반의 고효율 SLM(Small Language Model)을 통합하는 하이브리드 Multi-Agent System(MAS)의 설계 공간을 체계적으로 탐구합니다.#Review#Multi-Agent Systems#Hybrid AI#Edge Inference#Cloud Agents#Agentic Workflow#KV-cache#Model Routing2026년 5월 28일댓글 수 로딩 중
[논문리뷰] SkillOpt: Executive Strategy for Self-Evolving Agent Skills본 논문은 LLM 기반 에이전트가 복잡한 환경에서 스킬을 재사용할 때 발생하는 비효율성과 적응력 저하 문제를 해결합니다. 기존의 정적인 스킬 라이브러리는 에이전트의 다양한 상황 대응 능력을 제한하며, 스킬 간의 Dependencies를 고려하지 못한 실행은 성능 저하를 초래합니다.#Review#Self-Evolving Agent#Skill Optimization#Executive Strategy#Hierarchical Planning#Agentic Workflow#Skill Library2026년 5월 24일댓글 수 로딩 중
[논문리뷰] π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows본 논문은 Personal Assistant Agent가 장기적인 프로젝트나 업무 환경에서 능동적으로 의도(Hidden Intents)를 파악하고 대응하지 못하는 한계를 해결하고자 한다.#Review#Proactive Personal Assistant Agents#Long-Horizon Workflows#Hidden Intents#Benchmark#Task Completion#Agentic Workflow2026년 5월 21일댓글 수 로딩 중
[논문리뷰] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation본 논문은 오픈 엔드 이미지 생성이 단순한 텍스트 프롬프트 기반의 task를 넘어, 모델의 내부 지식과 외부 리소스를 효과적으로 결합해야 하는 복잡한 에이전트 과정임을 강조합니다.#Review#Image Generation#Agentic Workflow#Self-Evolving#Visual Experience Distillation#Tool-Orchestrated#On-Policy Distillation#Multimodal Agent2026년 5월 21일댓글 수 로딩 중
[논문리뷰] R^3-SQL: Ranking Reward and Resampling for Text-to-SQL본 연구는 기존 Text-to-SQL 시스템의 순위 결정(Ranking) 과정에서 발생하는 Functional Inconsistency와 Bounded Recall이라는 두 가지 핵심 과제를 해결하는 데 목적을 둡니다.#Review#Text-to-SQL#Ranking#Resampling#Functional Inconsistency#Bounded Recall#Agentic Workflow2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language본 논문은 실무 환경에서 널리 사용되는 agentic workflow의 구축이 현재 전적으로 수동적인 엔지니어링에 의존하고 있어, 자동화 및 확장성에 한계가 있다는 문제를 해결하고자 한다.#Review#Agentic Workflow#Benchmark#Large Language Models#Visual Programming#Executable Workflow#Task Automation2026년 4월 21일댓글 수 로딩 중
[논문리뷰] QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies본 논문은 400개의 트레이딩 전략 생성 태스크로 구성된 데이터셋을 바탕으로, Compilation, Backtest, Trade, Judge라는 4단계 순차적 검증 파이프라인을 제안한다. 실험은 단일 시도(Single-turn)와 반복 수정이 가능한 Agentic multi-turn 설정에서 진행되었다 .#Review#QuantCode-Bench#Large Language Models#Algorithmic Trading#Backtrader#Code Generation#Agentic Workflow#Domain-Specific Benchmarking2026년 4월 19일댓글 수 로딩 중