#Task Generation

6개의 포스트

[논문리뷰] AgenticDataBench: A Comprehensive Benchmark for Data Agents

본 연구는 기존 데이터 에이전트 벤치마크가 복잡한 실제 비즈니스 시나리오를 충분히 반영하지 못하고, 세부적인 작업 수준의 성능 분석을 제공하지 못한다는 한계점을 해결하고자 합니다.

#Review #Data Agent #Benchmark #Skill Extraction #Data Science #LLM #Task Generation #Evaluation Pipeline

2026년 7월 2일

[논문리뷰] CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

본 논문은 실세계 소프트웨어 개발에 필수적인 CLI(명령줄 인터페이스) 환경과의 상호작용 을 포함하는 환경 집약적 에이전트 작업 의 확장 가능한 데이터 생성 파이프라인 부재 문제를 해결하고자 합니다.

#Review #Agentic Coding #CLI Automation #Environment Inversion #Task Generation #Large Language Models (LLMs)#Software Engineering #Dockerfile #Terminal-Bench

2026년 2월 11일

[논문리뷰] Endless Terminals: Scaling RL Environments for Terminal Agents

본 논문은 자체 개선 에이전트 훈련을 위한 환경이 부족하다는 문제점을 해결하고, 확장 가능한 RL 환경을 제공하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Procedural Generation #Terminal Agents #Environment Scaling #Language Models (LLMs)#PPO #Task Generation #Automated Verification

2026년 1월 25일

[논문리뷰] PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

LLM 추론을 위한 고품질 훈련 문제의 부족이라는 핵심 병목 현상을 해결하고자 합니다.

#Review #Prompt Synthesis #Large Language Models #Reasoning #Expectation-Maximization #Self-Play #Supervised Fine-Tuning #Task Generation #Rationale Generation

2025년 9월 29일

[논문리뷰] Search Self-play: Pushing the Frontier of Agent Capability without Supervision

본 논문은 LLM 에이전트 훈련의 주요 병목인 대규모 인간 주석 데이터 의존성 문제를 해결하고자 합니다.

#Review #LLM Agents #Self-play #Reinforcement Learning #Search Agents #Supervision-Free Training #Retrieval-Augmented Generation (RAG)#Task Generation #Curriculum Learning

2025년 10월 24일

[논문리뷰] Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

본 논문은 정적 데이터셋 기반의 평가가 LLM 기반 에이전트 의 실제 역량(특히 동적 환경 및 다단계 상호작용)을 적절히 측정하지 못하는 문제점을 해결하고자 합니다.

#Review #Agent Evaluation #Task Generation #Knowledge Graphs #Multimodal AI #Web Interaction #Document Comprehension #LLM-driven Agents

2025년 10월 7일