[논문리뷰] Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards본 논문은 기존 RLVR 패러다임이 가진 sparse binary reward와 weak credit assignment 문제를 해결하여 모델의 추론 능력을 극대화하는 것을 목적으로 합니다.#Review#Reinforcement Learning#Large Language Models#Verifiable Rewards#Policy Optimization#Error Correction#Reasoning Capability2026년 5월 17일댓글 수 로딩 중
[논문리뷰] DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 노출 편향(exposure bias) 과 오류 누적 문제를 해결하는 것을 목표로 합니다.#Review#Chain-of-Thought#Diffusion Models#Large Language Models#Reasoning#Error Correction#Preference Optimization#Denoising2026년 1월 8일댓글 수 로딩 중
[논문리뷰] The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute본 논문은 언어 모델의 추론 작업을 위한 테스트-타임 스케일링 전략에 대해 근본적인 질문을 던집니다. 동일한 토큰 예산과 컴퓨팅 자원이 주어졌을 때, 독립적인 체인을 병렬로 실행하는 것이 효율적인지, 아니면 순차적인 단계들을 통해 반복적으로 개선하는 것이 더 나은 성능을 보이는지 비교 분석하는 것을 목표로 합니다.#Review#Sequential Reasoning#Parallel Self-Consistency#Inverse-Entropy Voting#LLM Reasoning#Test-Time Scaling#Inference Optimization#Iterative Refinement#Error Correction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction본 논문은 자연어 질의를 SQL 쿼리로 변환하는 Text-to-SQL (NL2SQL) 시스템의 견고성과 신뢰성을 향상시키는 것을 목표로 합니다. 특히, 기존 시스템들이 실행 기반 피드백에만 의존하여 논리적으로 부정확하지만 문법적으로 유효한 SQL 쿼리 오류를 수정하지 못하는 한계를 극복하고자 합니다.#Review#Text-to-SQL#Multi-agent Systems#Chain-of-Thought#Error Correction#Large Language Models#Query Planning#Database Interaction2025년 9월 3일댓글 수 로딩 중
[논문리뷰] AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning재단 모델(FMs)의 제한된 내재적 추론 능력과 불안정한 테스트 시간 반복이라는 두 가지 핵심 병목 현상을 해결하고자 합니다. 이 연구는 FM이 복잡한 벤치마크에서 겪는 어려움을 극복하고, 신뢰할 수 있는 심층 에이전트 추론을 위한 자가 진화 시스템을 구축하는 것을 목표로 합니다.#Review#Foundation Models#Agentic Reasoning#Tool Use#Self-Evolving System#Retrieval-Augmented Generation#Computational Tools#Error Correction2025년 10월 9일댓글 수 로딩 중
[논문리뷰] In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning본 연구는 다중 턴(multi-turn) 추론 과정에서 대규모 언어 모델(LLMs)이 사용자 피드백을 신뢰성 있게 통합하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#LLM Feedback#Multi-turn Reasoning#In-place Editing#Token Efficiency#Error Correction#Human-AI Interaction#Reasoning Tasks2025년 10월 2일댓글 수 로딩 중