[논문리뷰] CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents지능형 에이전트가 복잡한 데스크톱 워크플로우를 자동화할 수 있다는 비전은 연속적이고 고품질의 인간 데모 비디오 부족으로 인해 진전이 지연되고 있다.#Review#Computer-Use Agents#Video Demonstrations#Human Annotation#Desktop Applications#Visual Grounding#Action Prediction#Multi-layered Reasoning#Foundation Action Models2026년 3월 25일댓글 수 로딩 중
[논문리뷰] AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models본 연구는 기존 아랍어 대규모 언어 모델(LLM) 평가 벤치마크들이 사실적 지식과 일반 추론에 치중하여 심층적인 언어학적 이해도 를 제대로 측정하지 못하는 문제를 해결하고자 합니다.#Review#Arabic LLMs#Linguistic Benchmark#Human Annotation#Natural Language Understanding#Grammar Evaluation#Morphology Analysis#Syntax Assessment#Reading Comprehension2025년 11월 18일댓글 수 로딩 중
[논문리뷰] <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs본 연구는 대규모 언어 모델(LLM)이 생성한 독성 텍스트가 텍스트 정화(detoxification) 모델 훈련을 위한 인간 주석 데이터를 효과적으로 대체할 수 있는지 평가하는 것을 목표로 합니다.#Review#Toxic Text Generation#LLMs#Text Detoxification#Lexical Diversity#Synthetic Data#Human Annotation#Style Transfer2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation본 논문은 기존 비디오 생성 모델 및 벤치마크가 전문적인 비디오 생성의 복잡성과 요구사항 을 충분히 반영하지 못하는 문제를 해결하고자 합니다.#Review#Video Generation#Evaluation Framework#Cinematic Control#Taxonomy#Human Annotation#Vision-Language Models#Text-to-Video2025년 10월 1일댓글 수 로딩 중