[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered AssistantsYuante Li이 arXiv에 게시한 'MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models (LLMs)#Code Generation#HTML#Interactive Applications#Benchmark#MINIAPPBENCH#Agentic Evaluation#MINIAPPEVAL#Real-World Principles#Human-AI Interaction2026년 3월 10일댓글 수 로딩 중
[논문리뷰] UniVBench: Towards Unified Evaluation for Video Foundation ModelsYan Zhang이 arXiv에 게시한 'UniVBench: Towards Unified Evaluation for Video Foundation Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Foundation Models#Unified Evaluation#Multi-task Learning#Video Understanding#Video Generation#Video Editing#Video Reconstruction#Agentic Evaluation#Cinematic Dimensions2026년 2월 25일댓글 수 로딩 중
[논문리뷰] DREAM: Deep Research Evaluation with Agentic MetricsarXiv에 게시된 'DREAM: Deep Research Evaluation with Agentic Metrics' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research Evaluation#Agentic Evaluation#LLM Evaluation#Capability Parity#Factuality#Temporal Validity#Reasoning Quality#Research Agents#Mirage of Synthesis2026년 2월 24일댓글 수 로딩 중
[논문리뷰] RecGPT-V2 Technical ReportDian Chen이 arXiv에 게시한 'RecGPT-V2 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Recommender Systems#Large Language Models#Multi-Agent Systems#Reinforcement Learning#Dynamic Prompting#Hybrid Representation#Agentic Evaluation#Explanation Generation2025년 12월 16일댓글 수 로딩 중