[논문리뷰] PRBench: End-to-end Paper Reproduction in Physics Research최근 LLM 기반 에이전트가 과학적 추론 및 코드 생성 분야에서 발전하고 있으나, 실제 과학 논문의 복잡한 계산 과정을 처음부터 끝까지 신뢰성 있게 재현할 수 있는지에 대해서는 검증되지 않았습니다.#Review#Scientific Reproduction#Agentified Assessment#Physics Benchmark#LLM#Sandboxed Execution2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Universal Deep Research: Bring Your Own Model and Strategy이 논문은 기존의 심층 연구 도구(DRT)들이 고정된 연구 전략과 제한적인 모델 선택으로 인해 사용자 정의가 어렵고 특정 산업에 특화된 연구 전략을 구축하기 어렵다는 문제를 제기합니다.#Review#Agentic Systems#Language Models (LLMs)#Research Automation#Customizable Strategies#Code Generation#Deep Research#User-Defined Agents#Sandboxed Execution2025년 9월 3일댓글 수 로딩 중