#Multi-step Reasoning

9개의 포스트

[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.

#Review #Computer-Use Agents #Agent Safety #Benchmark #Harmful Behavior #Trajectory-level Evaluation #Multi-step Reasoning

2026년 4월 5일

[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?

기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Language Agents #Benchmarking #Expert Evaluation #Economic Value #Professional Tasks #Rubric-based Evaluation #Multi-step Reasoning #Reliability #Domain Adaptation

2026년 3월 9일

[논문리뷰] DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

이 논문은 AI 에이전트가 복잡한 다단계 정보 탐색 작업 에서 포괄적인 답변 목록 을 생성하는 능력을 평가하기 위한 새로운 벤치마크인 DeepSearchQA 를 소개합니다.

#Review #AI Agents #Deep Research #Benchmark #Information Retrieval #Comprehensiveness #Multi-step Reasoning #Evaluation #LLM-as-a-Judge

2026년 1월 29일

[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

본 논문은 기존의 학술적 또는 인공적으로 설계된 에이전트 평가 벤치마크들이 실제 복잡한 전자상거래 환경의 도전을 간과하고 있음을 지적합니다. 이에 대한 해결책으로, 실제 전자상거래 시나리오에서 파운데이션 에이전트의 성능을 종합적으로 평가하기 위한 EcomBench 라는 새로운 벤치마크를 제안합니다.

#Review #E-commerce #Foundation Agents #LLM Agents #Benchmark #Agent Evaluation #Tool Use #Multi-step Reasoning #Real-world Scenarios

2025년 12월 9일

[논문리뷰] ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

본 논문은 복잡한 추론 중심 비디오 객체 분할 (Reasoning VOS) 태스크에서 기존 Vision-Language Models (VLMs) 의 불투명한 단일 스텝 잠재 예측 방식의 한계를 극복하는 것을 목표로 합니다.

#Review #Video Object Segmentation #Reinforcement Learning #Vision-Language Models #Reasoning Chain #Explainable AI #Multi-step Reasoning

2025년 12월 7일

[논문리뷰] ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents

본 연구는 개방형 질문에 대한 심층 연구(Deep Research, DR) 에이전트의 평가가 응답의 길이, 다양성, 동적 정보원 의존성 등으로 인해 어렵다는 문제를 제기합니다.

#Review #Deep Research Agents #LLM Evaluation #Benchmark #Rubrics #Multi-step Reasoning #Cross-document Synthesis #AI Performance #Task Complexity

2025년 11월 13일

[논문리뷰] Scaling Agents via Continual Pre-training

본 논문은 기존의 에이전트 LLM 훈련 방법론(SFT, RL)이 복잡한 에이전트 태스크에서, 특히 오픈소스 구현체에서 저조한 성능을 보이는 문제를 해결하고자 합니다. 이는 견고한 에이전트 파운데이션 모델의 부재로 인해 훈련 후 다양한 에이전트 행동 학습과 정렬이 동시에 이루어지면서 발생하는 최적화 충돌 때문입니다.

#Review #Agentic LLMs #Continual Pre-training #Deep Research Agents #Tool Use #Multi-step Reasoning #Data Synthesis #Scaling Laws

2025년 9월 17일

[논문리뷰] Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

대규모 언어 모델(LLMs)이 다단계 추론 문제, 특히 정답 궤적이 희박한 어려운 태스크에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Supervised Reinforcement Learning #LLMs #Multi-step Reasoning #Reward Shaping #Expert Trajectories #Math Reasoning #Agentic AI

2025년 10월 31일

[논문리뷰] Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 순수 텍스트 추론이나 부정확한 증거 지역화로 인해 종종 발생시키는 근거 없는/환각적 결론의 문제를 해결하고, 다단계 비디오 추론 능력을 강화하는 것을 목표로 합니다.

#Review #Video Reasoning #Multimodal Large Language Models (MLLMs)#Reinforcement Learning (RLVR)#Evidence Grounding #Multi-step Reasoning #Frame Retrieval #Dataset Construction #Progressive Learning

2025년 10월 24일