[논문리뷰] DREAM: Deep Research Evaluation with Agentic MetricsarXiv에 게시된 'DREAM: Deep Research Evaluation with Agentic Metrics' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research Evaluation#Agentic Evaluation#LLM Evaluation#Capability Parity#Factuality#Temporal Validity#Reasoning Quality#Research Agents#Mirage of Synthesis2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia ArticlesarXiv에 게시된 'Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research Agents#LLM Evaluation#Wikipedia#Good Articles#Factuality#Writing Quality#Benchmark#Hallucinations#Verifiability2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Self-Improving Pretraining: using post-trained models to pretrain better modelsarXiv에 게시된 'Self-Improving Pretraining: using post-trained models to pretrain better models' 논문에 대한 자세한 리뷰입니다.#Review#Self-Improving Pretraining#Reinforcement Learning (RL)#Large Language Models (LLMs)#Quality Control#Factuality#Safety#Post-trained Models#Pretraining Data Augmentation2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Linear representations in language models can change dramatically over a conversationarXiv에 게시된 'Linear representations in language models can change dramatically over a conversation' 논문에 대한 자세한 리뷰입니다.#Review#Language Models#Representation Analysis#Interpretability#In-Context Learning#Representation Dynamics#Factuality#Conversational AI#Activation Steering2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Understanding DeepResearch via ReportsChengen Huang이 arXiv에 게시한 'Understanding DeepResearch via Reports' 논문에 대한 자세한 리뷰입니다.#Review#DeepResearch Agents#LLM-as-a-Judge#Report Evaluation#Agentic AI#Factuality#Redundancy#Research Automation#Benchmark2025년 10월 13일댓글 수 로딩 중
[논문리뷰] ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim GenerationKun Kuang이 arXiv에 게시한 'ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation' 논문에 대한 자세한 리뷰입니다.#Review#Legal AI#Natural Language Processing#Claim Generation#Chinese Legal Dataset#Factuality#Clarity#Large Language Models#Zero-shot Evaluation2025년 8월 27일댓글 수 로딩 중