[논문리뷰] Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering본 논문은 지식 집약적 QA 작업에서 LLM의 사실적 정확도를 높이기 위한 효율적인 보상 신호가 부족하다는 점을 문제로 지적합니다.#Review#Reinforcement Learning#Factuality#Process Supervision#Wikipedia#Co-occurrence#Large Language Models#GRPO2026년 5월 28일댓글 수 로딩 중
[논문리뷰] ResearchMath-14K: Scaling Research-Level Mathematics via Agents본 논문은 최신 LLM이 기초적인 수학 경시 수준을 넘어 연구 수준(research-level)의 수학 문제를 해결하도록 유도하는 데 필요한 대규모 학습 데이터가 부족하다는 점을 해결하고자 한다.#Review#Research-level Mathematics#Dataset Construction#Agentic Pipeline#Factuality#Reasoning Trajectories#Fine-tuning#Language Models2026년 5월 27일댓글 수 로딩 중
[논문리뷰] DREAM: Deep Research Evaluation with Agentic Metrics본 논문은 기존의 심층 연구 에이전트(Deep Research Agent, DRA) 평가 벤치마크들이 겪는 '합성의 신기루(Mirage of Synthesis)' 문제를 해결하고자 합니다.#Review#Deep Research Evaluation#Agentic Evaluation#LLM Evaluation#Capability Parity#Factuality#Temporal Validity#Reasoning Quality#Research Agents#Mirage of Synthesis2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles현재 Deep Research Agents (DRAs) 의 평가 방식이 LLM 생성 참조 나 단순한 평가 기준으로 인해 전문가 검증의 신뢰성이 부족하고 세밀한 평가가 어렵다는 문제를 해결하고자 합니다.#Review#Deep Research Agents#LLM Evaluation#Wikipedia#Good Articles#Factuality#Writing Quality#Benchmark#Hallucinations#Verifiability2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Self-Improving Pretraining: using post-trained models to pretrain better models본 논문은 대규모 언어 모델(LLM)의 생성 안전성, 사실성 및 전반적인 품질 문제를 사전 훈련 단계에서부터 해결하는 것을 목표로 합니다.#Review#Self-Improving Pretraining#Reinforcement Learning (RL)#Large Language Models (LLMs)#Quality Control#Factuality#Safety#Post-trained Models#Pretraining Data Augmentation2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Linear representations in language models can change dramatically over a conversation본 연구는 대규모 언어 모델(LLM) 내에서 선형 표현(Linear representations) , 특히 사실성(factuality)이나 윤리(ethics)와 같은 고수준 개념을 나타내는 표현이 대화 과정에서 어떻게 동적으로 변화 하는지 조사하는 것을 목표로 합니다.#Review#Language Models#Representation Analysis#Interpretability#In-Context Learning#Representation Dynamics#Factuality#Conversational AI#Activation Steering2026년 1월 28일댓글 수 로딩 중
[논문리뷰] ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation본 논문은 법률 전문가가 아닌 일반인(예: 원고)을 위한 법률 청구 생성(Legal Claim Generation) 문제에 주목하여, 주어진 사건의 사실(fact)을 바탕으로 청구 내용을 자동으로 생성하는 것을 목표로 합니다.#Review#Legal AI#Natural Language Processing#Claim Generation#Chinese Legal Dataset#Factuality#Clarity#Large Language Models#Zero-shot Evaluation2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Understanding DeepResearch via Reports본 논문은 지식 집약적 연구 작업을 수행하는 DeepResearch 에이전트 의 복합적인 평가 문제에 주목합니다.#Review#DeepResearch Agents#LLM-as-a-Judge#Report Evaluation#Agentic AI#Factuality#Redundancy#Research Automation#Benchmark2025년 10월 13일댓글 수 로딩 중