#Test-time Adaptation

3개의 포스트

[논문리뷰] FutureSim: Replaying World Events to Evaluate Adaptive Agents

본 연구는 AI 에이전트가 변화하는 현실 세계 환경에서 적응형 예측을 수행하는 능력을 실질적으로 측정하기 위한 표준화된 시뮬레이션 환경의 부재를 해결하고자 합니다. 기존의 게임 기반이나 정적인 벤치마크는 실제 사회적 진화와 사건의 연대기적 특성을 반영하지 못한다는 한계가 있습니다.

#Review #Adaptive Agents #Long-horizon Forecasting #Test-time Adaptation #Chronological Replay #Agentic Search #Brier Skill Score

2026년 5월 14일

[논문리뷰] How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

본 논문은 기존의 에이전트 스킬 연구가 지나치게 이상적인 환경에서 수행되고 있다는 점을 지적하며, 현실적인 설정에서 스킬의 유용성을 규명하고자 한다.

#Review #LLM Agents #Agentic Skills #Skill Retrieval #Skill Refinement #Benchmarking #Test-time Adaptation

2026년 4월 7일

[논문리뷰] Test-time scaling of diffusions with flow maps

본 논문은 확산 모델의 추론 시점에 사용자 정의 보상에 따라 샘플을 개선하는 문제, 특히 보상 함수가 최종 데이터 분포에서만 잘 정의되는 상황에서 발생하는 어려움을 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Flow Maps #Test-time Adaptation #Reward Guidance #Generative Models #SMC #Vision-Language Models

2025년 11월 30일