#Long-horizon Reasoning

4개의 포스트

[논문리뷰] OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

본 연구는 고성능 search agent 개발이 자본과 컴퓨팅 자원이 막대한 기업 주도의 CPT+SFT+RL 파이프라인에 종속된 현실을 비판적으로 접근합니다. 기존의 복잡한 학습 방식은 학계의 진입 장벽을 높이고 연구 생태계의 폐쇄성을 야기합니다.

#Review #Search Agent #SFT #ReAct #Data Quality #Long-horizon Reasoning #Data Synthesis

2026년 5월 5일

[논문리뷰] A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

터미널 기반의 소프트웨어 엔지니어링 에이전트는 긴 호흡의 의사결정이 필요하지만, 반복적이고 노이즈가 많은 터미널 출력으로 인해 컨텍스트의 중복성이 심화되는 문제에 직면해 있습니다 . 이러한 데이터 중복은 토큰 비용을 기하급수적으로 증가시킬 뿐만 아니라, 중요한 신호를 가려 장기 추론 성능을 저하시키는 주요 원인이 됩니다.

#Review #Terminal Agents #Context Compression #Self-evolving Framework #Token Efficiency #Long-horizon Reasoning #Training-free

2026년 4월 22일

[논문리뷰] PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research

본 논문은 기존 벤치마크들이 실제 과학 연구의 핵심인 탐색적 성격과 절차적 복잡성을 제대로 평가하지 못하는 문제를 해결하고자 한다.

#Review #PRL-Bench #LLMs #Scientific Benchmarks #Physics Research #End-to-End Workflow #Long-horizon Reasoning #Agentic Science

2026년 4월 19일

[논문리뷰] UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

본 논문은 전문화된 비디오 AI 모델과 실제 비디오 워크플로우 간의 격차를 해소하여 차세대 비디오 일반 인공지능을 구현하는 것을 목표로 합니다.

#Review #Video Agents #Multi-modal AI #Plan-Act Architecture #Tool-Use #Long-horizon Reasoning #Open-source #Video Generation #Video Understanding

2025년 11월 13일