[논문리뷰] Human Psychometric Questionnaires Mischaracterize LLM Behavior본 논문은 LLM의 가치와 성격을 평가하기 위해 인간용 심리측정 설문지를 사용하는 것이 과연 실제 사용자 상호작용에서의 행동을 신뢰성 있게 예측하는지 의문을 제기합니다.#Review#LLM#Psychometrics#Value Portrait#Generation Probability#Alignment#Construct Validity2026년 6월 8일댓글 수 로딩 중
[논문리뷰] When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity본 논문은 LLM Judge 벤치마크 설계에서 발생하는 근본적인 결함이 평가 유효성을 침묵적으로 저해 하는 문제를 다룹니다. 특히, 명확한 목표와 검증 가능한 구성 없이 고신뢰도처럼 보이는 랭킹이 실제로는 대부분 노이즈 일 수 있음을 진단하고, 이를 해결하기 위한 진단 메커니즘과 개선 원칙을 제시하는 것을 목표로 합니다.#Review#LLM Judge#Benchmark Evaluation#Validity#Reliability#Psychometrics#Factor Analysis#Schema Adherence#ELO Ranking2025년 9월 26일댓글 수 로딩 중
[논문리뷰] A Definition of AGI본 논문은 모호한 AGI(인공 일반 지능) 개념을 명확히 정의하고, 현재의 특수화된 AI와 인간 수준의 인지 능력 간의 격차를 해소하기 위한 정량적 프레임워크 를 제시하는 것을 목표로 합니다. 잘 교육받은 성인의 인지적 다재다능함과 숙련도에 필적하는 AI를 AGI로 정의하며, 이를 측정 가능한 기준으로 설정하고자 합니다.#Review#AGI Definition#Cognitive Assessment#Cattell-Horn-Carroll Theory#AI Evaluation#Multimodal AI#Cognitive Domains#Psychometrics2025년 10월 27일댓글 수 로딩 중