[논문리뷰] Towards a Science of AI Agent ReliabilityAI 에이전트의 높은 벤치마크 정확도와 실제 배포 시의 잦은 실패 간의 격차를 해소하는 것이 이 연구의 주요 목표입니다.#Review#AI Agents#Reliability#Evaluation Metrics#Consistency#Robustness#Predictability#Safety#Benchmarks2026년 2월 18일댓글 수 로딩 중
[논문리뷰] CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty기존 LLM 에이전트 벤치마크가 이상적인 설정에서의 태스크 완료에만 초점을 맞추고 실제 환경에서의 신뢰성, 일관성, 한계 인식 을 간과하는 문제를 해결하고자 합니다.#Review#LLM Agents#Benchmarks#Tool-use#Consistency#Uncertainty Handling#Hallucination#In-car Assistant#Policy Adherence2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Are We on the Right Way to Assessing LLM-as-a-Judge?본 논문은 현재 LLM-as-a-Judge 평가 방법론이 인간 주석에 과도하게 의존하여 발생하는 편향, 불일치성, 확장성 문제를 해결하고자 합니다.#Review#LLM-as-a-Judge#Evaluation Metrics#Consistency#Robustness#Positional Bias#Transitivity#Situational Preference#Multi-agent Systems2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Image Diffusion Preview with Consistency Solver본 논문은 이미지 Diffusion 모델의 느린 추론 속도로 인해 저하되는 사용자 경험 문제를 해결하고자 합니다.#Review#Diffusion Models#Efficient Sampling#Reinforcement Learning#ODE Solvers#Image Generation#Consistency#Diffusion Preview2025년 12월 15일댓글 수 로딩 중