#Sandboxed Execution

2개의 포스트

[논문리뷰] PRBench: End-to-end Paper Reproduction in Physics Research

최근 LLM 기반 에이전트가 과학적 추론 및 코드 생성 분야에서 발전하고 있으나, 실제 과학 논문의 복잡한 계산 과정을 처음부터 끝까지 신뢰성 있게 재현할 수 있는지에 대해서는 검증되지 않았습니다.

#Review #Scientific Reproduction #Agentified Assessment #Physics Benchmark #LLM #Sandboxed Execution

2026년 3월 30일

[논문리뷰] Universal Deep Research: Bring Your Own Model and Strategy

이 논문은 기존의 심층 연구 도구(DRT)들이 고정된 연구 전략과 제한적인 모델 선택으로 인해 사용자 정의가 어렵고 특정 산업에 특화된 연구 전략을 구축하기 어렵다는 문제를 제기합니다.

#Review #Agentic Systems #Language Models (LLMs)#Research Automation #Customizable Strategies #Code Generation #Deep Research #User-Defined Agents #Sandboxed Execution

2025년 9월 3일