#Self-Reflection

17개의 포스트

[논문리뷰] UniMesh: Unifying 3D Mesh Understanding and Generation

본 논문은 3D 생성과 이해를 하나의 아키텍처 내에서 통합하고 상호 강화할 수 있는 UniMesh를 제안합니다. Mesh Head를 도입하여 BAGEL의 latent와 Hunyuan3D의 conditioning latent를 직접 매핑함으로써 정보 손실을 최소화하고 기하학적 정밀도를 유지합니다.

#Review #3D Generation #3D Understanding #Mesh Head #Chain-of-Mesh #Self-Reflection #Multimodal Learning

2026년 4월 21일

[논문리뷰] MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

본 논문은 기존의 웹 페이지 자동 생성 방식이 가진 전역적 일관성 및 시각적 요소의 통합 문제를 해결하기 위해 MM-WebAgent를 제안한다.

#Review #Multimodal Web Agent #Hierarchical Planning #Self-Reflection #Webpage Generation #AIGC

2026년 4월 16일

[논문리뷰] Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

본 논문은 기존 RL 기반 Search Agent가 겪는 스토캐스틱 탐색(Stochastic Exploration)의 비효율성과 훈련 불안정성 문제를 해결하고자 합니다.

#Review #Agentic Search #Reinforcement Learning #Hierarchical Experience #Policy Optimization #Contrastive Distillation #Self-Reflection

2026년 4월 9일

[논문리뷰] RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

본 논문은 LLM 기반 에이전트가 복잡한 대화형 환경에서 정적인 문제 해결을 넘어 지속적인 적응 및 진화를 가능하게 하는 것을 목표로 합니다. 기존 RL 패러다임의 탐색 부족 및 학습된 지식의 암묵적 특성으로 인한 비효율적인 학습 및 취약한 일반화 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Reflection #Intrinsic Feedback #Continuous Adaptation #Memory Retrieval #Agentic AI #GRPO

2026년 3월 11일

[논문리뷰] Believe Your Model: Distribution-Guided Confidence Calibration

대규모 추론 모델(LRMs)이 테스트 시 스케일링 기법을 통해 다수의 후보 응답을 생성할 때, 내부 모델의 신뢰도 점수와 분포 정보를 충분히 활용하지 못하여 오답을 확신하는 문제를 해결하고자 합니다. 신뢰도 분포의 사전 정보를 효과적으로 통합하여 답변 선택의 신뢰성을 향상시키는 것을 목표로 합니다.

#Review #Confidence Calibration #Test-Time Scaling #Large Reasoning Models (LRMs)#Gaussian Mixture Models (GMM)#Hierarchical Voting #Self-Reflection #Distributional Priors

2026년 3월 9일

[논문리뷰] Agentic Critical Training

본 논문은 LLM 에이전트가 단순한 모방을 넘어, 행동의 품질에 대한 자율적인 비판적 추론 및 진정한 자기 성찰 능력 을 개발하도록 훈련시키는 것을 목표로 합니다. 기존 모방 학습(IL)이 '무엇을 할지'만 가르치고 '왜 그 행동이 더 나은지'에 대한 이해가 부족하다는 한계를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Imitation Learning #Self-Reflection #Action Quality #Out-of-Distribution Generalization #Critical Reasoning #GRPO

2026년 3월 9일

[논문리뷰] Experiential Reinforcement Learning

언어 모델(LMs)이 희소하고 지연된 환경 피드백으로부터 학습하는 과정에서 발생하는 비효율성과 불안정성을 해결하는 것이 주요 목표입니다.

#Review #Reinforcement Learning #Language Models #Self-Reflection #Experiential Learning #Policy Optimization #Distillation #Agentic Reasoning

2026년 2월 16일

[논문리뷰] UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

본 논문은 복잡한 추론과 세계 지식이 필요한 이미지 합성 태스크에서 기존 통합 멀티모달 모델의 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Image Generation #Image Editing #World Knowledge #Self-Reflection #Unified Framework #Text-to-Image

2026년 2월 2일

[논문리뷰] Agentic Policy Optimization via Instruction-Policy Co-Evolution

본 논문은 LLM 기반 에이전트의 강화 학습(RL) 과정에서 고정되고 수동으로 설계된 명령어(instruction)가 최적의 성능을 저해한다는 문제에 주목합니다.

#Review #Reinforcement Learning #Large Language Models #Instruction Optimization #Policy Co-Evolution #Agentic AI #Tool-Integrated Reasoning #Self-Reflection

2025년 12월 1일

[논문리뷰] REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

본 논문은 기존 텍스트 기반 자기 성찰(self-reflection) 메커니즘 이 풍부하고 동적인 시각 정보를 처리하는 데 한계가 있어, 장문 비디오 이해(long-form video understanding) 태스크에서 성능 저하를 겪는 문제를 해결하고자 합니다.

#Review #Multimodal Reasoning #Long-Form Video Understanding #Self-Reflection #Reinforcement Learning #Tool-Augmented MLLMs #Visual Rethinking #Video Question Answering #Causal Attribution

2025년 11월 18일

[논문리뷰] VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks

본 논문은 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 논리적 오류와 신뢰성 문제를 해결하는 것을 목표로 합니다. LLM이 최종 정답을 맞히더라도 추론 과정이 비논리적이거나 근거가 불충분할 수 있는 한계를 극복하고, 고위험 도메인에서의 LLM 신뢰도를 높이고자 합니다.

#Review #Neuro-symbolic AI #Chain-of-Thought #Large Language Models #Logical Consistency #Automated Verification #Fine-tuning #SMT Solvers #Self-Reflection

2025년 11월 9일

[논문리뷰] SPARK: Synergistic Policy And Reward Co-Evolving Framework

본 논문은 대규모 언어/시각-언어 모델(LLM/LVLM)의 강화 학습(RL) 파이프라인이 겪는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #LVLMs #Reward Modeling #Policy Optimization #Self-Reflection #Verifiable Rewards #Co-evolution

2025년 9월 29일

[논문리뷰] SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

이 논문은 기존 3D 장면 합성 방법론들이 고정된 카테고리, 부족한 객체 디테일, 물리적 불일치, 복잡한 사용자 지시와의 낮은 정합성 등의 한계를 가지는 문제를 해결하고자 합니다.

#Review #3D Scene Synthesis #Agentic Framework #LLMs #Self-Reflection #Tool-Use #Physical Plausibility #Iterative Refinement #Embodied AI

2025년 9월 26일

[논문리뷰] rStar2-Agent: Agentic Reasoning Technical Report

본 논문은 대규모 언어 모델(LLM)이 복잡한 수학 추론에서 '더 길게 생각하는' 것을 넘어 '더 스마트하게 생각하도록' 돕는 것을 목표로 합니다. 구체적으로, 에이전트형 강화 학습(RL)을 통해 Python 코딩 도구 를 자율적으로 활용하고 환경 피드백으로부터 학습하여 최첨단 성능을 달성하고자 합니다.

#Review #Agentic Reinforcement Learning #Math Reasoning #Code Interpreter #Tool Use #GRPO-RoC #LLM Training Efficiency #Self-Reflection

2025년 8월 29일

[논문리뷰] ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

자연어 수학 문제를 기계 검증 가능한 형식적 진술로 변환하는 자동 형식화(Autoformalization) 과정에서 대규모 언어 모델(LLM) 이 원본 문제의 의미적 의도 를 정확히 보존하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Autoformalization #Large Language Models #Reinforcement Learning #Self-Reflection #Semantic Consistency #Formal Mathematical Reasoning #Sequence Optimization

2025년 10월 30일

[논문리뷰] Agent Learning via Early Experience

본 논문은 보상이 없거나 불명확한 환경에서 언어 에이전트 가 스스로 경험을 통해 학습하고 개선하는 데 따르는 어려움을 해결하고자 합니다.

#Review #Language Agents #Early Experience #Reward-Free Learning #World Modeling #Self-Reflection #Imitation Learning #Reinforcement Learning #Out-of-Domain Generalization

2025년 10월 10일

[논문리뷰] Self-Reflective Generation at Test Time

본 논문은 대규모 언어 모델(LLM)의 자동회귀(autoregressive) 생성 과정에서 발생하는 초기 토큰 오류가 전체 추론 과정을 망가뜨리는 취약점을 해결하고자 합니다.

#Review #Large Language Models #Self-Reflection #Test-Time Optimization #Uncertainty Monitoring #Proactive Error Prevention #Reasoning Tasks #Chain-of-Thought

2025년 10월 7일