[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice를 제안합니다. ThinkTwice는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 .#Review#Large Language Models#Reinforcement Learning#Reasoning#Self-Refinement#RLVR#Policy Optimization#Implicit Curriculum2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning본 논문은 LLM(Large Language Model) 훈련 시 희소한 스칼라 보상에만 의존하여 발생하는 비효율적인 탐색 문제 를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Natural Language Feedback#Exploration#Group-Level Feedback#Self-Refinement#Sample Efficiency2026년 3월 11일댓글 수 로딩 중
[논문리뷰] REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance소셜 미디어의 가짜 뉴스 확산으로 인한 신뢰 저하 문제를 해결하기 위해, 기존 LLM 기반 팩트 체크 시스템의 외부 지식 의존성, 높은 지연 시간, 환각 현상, 낮은 해석 가능성 등의 한계를 극복하는 것을 목표로 합니다.#Review#Fact-Checking#Explainable AI (XAI)#Large Language Models (LLMs)#Self-Refinement#Latent Space#Disentanglement#Steering Vectors#Misinformation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] RefineBench: Evaluating Refinement Capability of Language Models via Checklists이 논문은 대규모 언어 모델(LM)이 자신의 답변을 스스로 또는 외부 피드백을 통해 얼마나 효과적으로 개선할 수 있는지를 평가하는 것을 목표로 합니다.#Review#Language Models#Refinement Capability#Self-Refinement#Guided Refinement#Checklist Evaluation#Multi-turn Interaction#Benchmark2025년 11월 30일댓글 수 로딩 중
[논문리뷰] A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models대규모 언어 모델(LLM)이 고정된 반복 횟수와 사후(post-hoc) 방식에 의존하는 기존 자기 개선(self-refinement) 방법의 한계를 극복하고자 합니다.#Review#Self-Refinement#Language Models#Reinforcement Learning#Proactive AI#Generation Process#Markov Decision Process#Adaptive Learning#LLM Efficiency2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Generative Universal Verifier as Multimodal Meta-Reasoner본 논문은 차세대 멀티모달 추론 및 통합 모델을 위한 생성형 범용 검증기(Generative Universal Verifier, GUV) 개념과 플러그인을 소개합니다.#Review#Multimodal AI#Visual Verification#Generative Models#Self-Refinement#Vision-Language Models#Test-Time Scaling#Reasoning2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Deep Self-Evolving Reasoning본 연구는 개방형 소형 언어 모델(LLM)이 어려운 추론 작업에서 취약한 검증 및 교정 능력으로 인해 한계에 부딪히는 문제를 해결하고자 합니다.#Review#Deep Self-Evolving Reasoning#LLMs#Iterative Reasoning#Markov Chain#Self-Verification#Self-Refinement#Mathematical Reasoning#AIME Benchmark2025년 10월 21일댓글 수 로딩 중