[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.#Review#Computer-Use Agents#Agent Safety#Benchmark#Harmful Behavior#Trajectory-level Evaluation#Multi-step Reasoning2026년 4월 5일댓글 수 로딩 중
[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?arXiv에 게시된 '$OneMillion-Bench: How Far are Language Agents from Human Experts?' 논문에 대한 자세한 리뷰입니다.#Review#Language Agents#Benchmarking#Expert Evaluation#Economic Value#Professional Tasks#Rubric-based Evaluation#Multi-step Reasoning#Reliability#Domain Adaptation2026년 3월 9일댓글 수 로딩 중
[논문리뷰] DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research AgentsarXiv에 게시된 'DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Deep Research#Benchmark#Information Retrieval#Comprehensiveness#Multi-step Reasoning#Evaluation#LLM-as-a-Judge2026년 1월 29일댓글 수 로딩 중
[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commercearXiv에 게시된 'EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce' 논문에 대한 자세한 리뷰입니다.#Review#E-commerce#Foundation Agents#LLM Agents#Benchmark#Agent Evaluation#Tool Use#Multi-step Reasoning#Real-world Scenarios2025년 12월 9일댓글 수 로딩 중
[논문리뷰] ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement LearningShengju Qian이 arXiv에 게시한 'ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Video Object Segmentation#Reinforcement Learning#Vision-Language Models#Reasoning Chain#Explainable AI#Multi-step Reasoning2025년 12월 7일댓글 수 로딩 중
[논문리뷰] ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research AgentsarXiv에 게시된 'ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research Agents#LLM Evaluation#Benchmark#Rubrics#Multi-step Reasoning#Cross-document Synthesis#AI Performance#Task Complexity2025년 11월 13일댓글 수 로딩 중
[논문리뷰] Supervised Reinforcement Learning: From Expert Trajectories to Step-wise ReasoningarXiv에 게시된 'Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Supervised Reinforcement Learning#LLMs#Multi-step Reasoning#Reward Shaping#Expert Trajectories#Math Reasoning#Agentic AI2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual EvidencearXiv에 게시된 'Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence' 논문에 대한 자세한 리뷰입니다.#Review#Video Reasoning#Multimodal Large Language Models (MLLMs)#Reinforcement Learning (RLVR)#Evidence Grounding#Multi-step Reasoning#Frame Retrieval#Dataset Construction#Progressive Learning2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Scaling Agents via Continual Pre-trainingGuangyu Li이 arXiv에 게시한 'Scaling Agents via Continual Pre-training' 논문에 대한 자세한 리뷰입니다.#Review#Agentic LLMs#Continual Pre-training#Deep Research Agents#Tool Use#Multi-step Reasoning#Data Synthesis#Scaling Laws2025년 9월 17일댓글 수 로딩 중