#Code Execution

3개의 포스트

[논문리뷰] INTELLECT-3: Technical Report

본 논문은 기존 오픈소스 LLM RL 인프라의 복잡성과 확장성 한계를 해결하고, 106B 파라미터 Mixture-of-Experts (MoE) 모델인 INTELLECT-3 를 통해 최첨단 성능을 달성하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Mixture-of-Experts #Asynchronous Training #Distributed Systems #Agentic AI #Code Execution #Model Evaluation

2025년 12월 23일

[논문리뷰] DeepEyesV2: Toward Agentic Multimodal Model

본 논문은 텍스트와 이미지를 단순히 이해하는 것을 넘어, 코드 실행 환경 및 웹 검색 과 같은 외부 도구를 능동적으로 호출하고 이러한 도구 작업을 추론 과정에 원활하게 통합할 수 있는 Agentic 멀티모달 모델 을 구축하는 것을 목표로 합니다.

#Review #Agentic AI #Multimodal Models #Tool Use #Reinforcement Learning #Supervised Fine-tuning #Multimodal Reasoning #Web Search #Code Execution

2025년 11월 9일

[논문리뷰] ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?

이 논문은 AI 에이전트, 특히 대규모 언어 모델(LLM) 기반 에이전트가 과학 연구를 수행하는 능력을 평가하는 것을 목표로 합니다.

#Review #AI Agents #Astrophysics Research #Reproducibility Benchmark #Large Language Models #Scientific Workflow #Code Execution #Evaluation Framework

2025년 10월 29일