[논문리뷰] LiveTradeBench: Seeking Real-World Alpha with Large Language Models본 논문은 기존의 정적 벤치마크로는 평가하기 어려운 LLM 에이전트의 실제 시장에서의 의사결정 능력 과 불확실성 하의 적응성 을 평가하기 위한 라이브 트레이딩 환경을 구축하는 것을 목표로 합니다. 특히, LLM의 일반적인 추론 능력이 실제 금융 시장에서의 성능으로 이어지는지 검증하고자 합니다.#Review#LLM Evaluation#Live Trading#Portfolio Management#Financial AI#Prediction Markets#Real-World Uncertainty#Agent Benchmarking2025년 11월 9일댓글 수 로딩 중
[논문리뷰] FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain본 논문은 금융 도메인에서 대규모 언어 모델(LLM)의 신뢰성을 종합적으로 평가하기 위한 FINTRUST 벤치마크를 제시합니다.#Review#LLM Trustworthiness#Finance Domain#Benchmark#Alignment Evaluation#Financial AI#Hallucination#Privacy#Fairness2025년 10월 20일댓글 수 로딩 중