[논문리뷰] Implicit Intelligence -- Evaluating Agents on What Users Don't SayAI 에이전트가 사용자의 명시적 지시 를 따르는 것을 넘어, 암묵적인 기대치와 요구사항 을 추론하고 충족하는 능력을 평가하는 것을 목표로 합니다. 현실 세계의 요청은 본질적으로 불완전하게 명시되며, 기존 벤치마크들이 명시적인 지시 수행 에만 초점을 맞춰왔다는 한계를 극복하고자 합니다.#Review#Implicit Intelligence#AI Agents#Agent-as-a-World#Contextual Reasoning#Safety#Privacy#Accessibility#LLM Evaluation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning본 논문은 Code Language Models (CLMs) 에서 발생하는 민감한 훈련 데이터의 의도치 않은 기억(memorization) 문제를 해결하고자 합니다.#Review#Code Language Models#Machine Unlearning#Sensitive Memorization#Privacy#Gradient Ascent#Model Utility#Code Generation2025년 9월 18일댓글 수 로딩 중
[논문리뷰] FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain본 논문은 금융 도메인에서 대규모 언어 모델(LLM)의 신뢰성을 종합적으로 평가하기 위한 FINTRUST 벤치마크를 제시합니다.#Review#LLM Trustworthiness#Finance Domain#Benchmark#Alignment Evaluation#Financial AI#Hallucination#Privacy#Fairness2025년 10월 20일댓글 수 로딩 중