[논문리뷰] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games본 논문은 협소하고 정적인 기존 AI 벤치마크의 한계를 극복하고, 인간과 유사한 일반 지능(AGI)을 평가하기 위한 확장 가능하며 개방형의 새로운 접근 방식을 제안합니다. 특히, AI 시스템이 인간이 고안한 모든 게임 을 얼마나 잘 플레이하고 학습하는지를 통해 AGI 역량을 측정하고자 합니다.#Review#Artificial General Intelligence (AGI)#Evaluation Benchmark#General Game Playing#Large Language Models (LLMs)#Human-in-the-loop#Cognitive Capabilities#Vision-Language Models (VLMs)#Game Generation2026년 2월 26일댓글 수 로딩 중
[논문리뷰] Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response AssistanceAI/ML 논문 심사 과정에서 발생하는 저자 답변(rebuttal) 작성의 어려움을 해결하는 것을 목표로 합니다.#Review#Multi-Agent Framework#LLM Agents#Peer Review#Rebuttal Generation#Evidence-centric Planning#Transparency#Human-in-the-loop2026년 1월 21일댓글 수 로딩 중
[논문리뷰] SAM 3: Segment Anything with Concepts이 논문은 기존 SAM(Segment Anything Model) 의 한계, 즉 단일 객체 분할(PVS)을 넘어 이미지와 비디오에서 개념(Concept) 을 기반으로 모든 객체 인스턴스를 탐지, 분할 및 추적하는 것을 목표로 합니다.#Review#Segment Anything Model#Open-Vocabulary Segmentation#Multimodal Foundation Model#Instance Segmentation#Video Object Tracking#Prompt Engineering#Data Engine#Human-in-the-loop2025년 11월 23일댓글 수 로딩 중
[논문리뷰] EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI본 논문은 대규모 언어 모델(LLM)이 정신 건강과 같은 민감한 도메인에서 직면하는 윤리적 추론의 한계를 해결하고자 합니다.#Review#Ethical Reasoning#Mental Health AI#Benchmark Dataset#Large Language Models#AI Ethics#Clinical Decision Support#Human-in-the-loop2025년 9월 16일댓글 수 로딩 중
[논문리뷰] FineVision: Open Data Is All You Need파편화되고 일관성 없으며 오염된 공개 데이터셋으로 인해 저해되는 Vision-Language Model (VLM) 연구의 한계를 극복하는 것이 목표입니다.#Review#Multimodal Datasets#VLM#Data Curation#Data Hygiene#De-duplication#Human-in-the-loop#GUI Automation#Test-set Decontamination2025년 10월 21일댓글 수 로딩 중
[논문리뷰] TAU: A Benchmark for Cultural Sound Understanding Beyond SemanticsAI 모델이 지역별 문화적 맥락을 이해하고 비의미론적(non-semantic) 음향 신호를 해석하는 능력의 부족을 해결하는 것을 목표로 합니다.#Review#Audio Language Models#Cultural Sound Understanding#Localized Benchmark#Non-semantic Audio#Human-in-the-loop#Multimodal AI#Taipei Soundscape2025년 10월 1일댓글 수 로딩 중