[논문리뷰] FutureSim: Replaying World Events to Evaluate Adaptive Agents본 연구는 AI 에이전트가 변화하는 현실 세계 환경에서 적응형 예측을 수행하는 능력을 실질적으로 측정하기 위한 표준화된 시뮬레이션 환경의 부재를 해결하고자 합니다. 기존의 게임 기반이나 정적인 벤치마크는 실제 사회적 진화와 사건의 연대기적 특성을 반영하지 못한다는 한계가 있습니다.#Review#Adaptive Agents#Long-horizon Forecasting#Test-time Adaptation#Chronological Replay#Agentic Search#Brier Skill Score2026년 5월 14일댓글 수 로딩 중
[논문리뷰] How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings본 논문은 기존의 에이전트 스킬 연구가 지나치게 이상적인 환경에서 수행되고 있다는 점을 지적하며, 현실적인 설정에서 스킬의 유용성을 규명하고자 한다.#Review#LLM Agents#Agentic Skills#Skill Retrieval#Skill Refinement#Benchmarking#Test-time Adaptation2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Test-time scaling of diffusions with flow maps본 논문은 확산 모델의 추론 시점에 사용자 정의 보상에 따라 샘플을 개선하는 문제, 특히 보상 함수가 최종 데이터 분포에서만 잘 정의되는 상황에서 발생하는 어려움을 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Flow Maps#Test-time Adaptation#Reward Guidance#Generative Models#SMC#Vision-Language Models2025년 11월 30일댓글 수 로딩 중