#Self-Improvement

18개의 포스트

[논문리뷰] Agon: Competitive Cross-Model RL with Implicit Rival Grading of Reasoning

본 논문은 기존 GRPO 기반의 LLM 학습이 '추론 과정(trace)'을 평가하지 못하고 최종 정답에만 의존하여 발생하는 'Length Pathology(불필요한 답변 길이 증가)' 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #GRPO #Competitive Training #Multi-Agent System #Self-Improvement

2026년 7월 19일

[논문리뷰] Self-Improvements in Modern Agentic Systems: A Survey

본 논문은 현대의 Agentic Systems가 어떻게 인간의 개입을 최소화하면서 경험을 통해 스스로 역량을 확장할 수 있는지에 대한 체계적인 분석을 제공합니다. 기존 연구들은 개별적인 개선 기법에 집중해왔으나, 이러한 기술들을 포괄하는 통합된 프레임워크가 부족했습니다.

#Review #Agentic Systems #Self-Improvement #Foundation Model #Scaffolding #Meta-Learning #Autonomous Agents

2026년 7월 15일

[논문리뷰] ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

본 논문은 로봇의 Dexterous Manipulation 기술을 습득함에 있어 인간의 개입이 필수적인 현재의 병목 현상을 해결하고자 합니다.

#Review #Physical Autoresearch #Agentic Robot Policy #Robot Fleet #Closed-loop System #Self-Improvement #Task Manipulation

2026년 6월 18일

[논문리뷰] From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning

본 연구는 RL 학습 환경을 수동으로 설계하는 기존 파이프라인의 비효율성과 확장성 한계를 해결하고자 수행되었습니다. 기존의 RL 학습은 환경 설정이 고정되어 있거나, 전문가가 휴리스틱에 의존하여 학습 커리큘럼을 직접 조정해야 하므로 복잡한 시나리오에서의 일반화 및 최적화 능력이 저하되는 문제가 있습니다.

#Review #Reinforcement Learning #LLM-as-Environment-Engineer #Multi-Agent Path Finding #MAPF-FrozenLake #Self-Improvement #Policy Conditioning

2026년 6월 17일

[논문리뷰] BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution

본 논문은 최신 Frontier LLM들이 기존의 코딩 벤치마크(LiveCodeBench 등)에서 90% 이상의 높은 Pass@1 성능을 기록하며 벤치마크가 포화(Saturation)되는 문제를 해결하고자 합니다.

#Review #Frontier LLM #Coding Benchmark #Task Evolution #Solution-Centric #Reinforcement Learning #Executable Semantics #Self-Improvement

2026년 6월 3일

[논문리뷰] Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories

본 논문은 현대의 LLM이 배포 이후 새로운 정보를 지속적으로 학습하지 못하는 '정적(Static)'인 한계와, 업데이트 시 발생하는 Catastrophic Forgetting (CF) 문제를 해결하고자 합니다.

#Review #Continual Learning #Language Models #Memory Consolidation #Knowledge Seeding #Self-Improvement #Dreaming #Catastrophic Forgetting

2026년 6월 2일

[논문리뷰] References Improve LLM Alignment in Non-Verifiable Domains

이 논문은 검증 불가능한 도메인(예: LLM 정렬 튜닝)에서 강화 학습(RL) 의 적용 한계를 극복하기 위해 레퍼런스(참조 출력)를 활용한 LLM-as-a-Judge 평가자가 '소프트 검증기' 역할을 할 수 있는지 탐구합니다.

#Review #LLM Alignment #Reference-Guided Evaluation #Self-Improvement #Non-Verifiable Domains #Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)

2026년 2월 19일

[논문리뷰] Self-Improving World Modelling with Latent Actions

본 논문은 액션이 레이턴트 변수로 취급되는 상태-온리 시퀀스 로부터 LLM(Large Language Models) 및 VLM(Vision-Language Models)의 내재적 월드 모델링 능력을 향상시키는 것을 목표로 합니다.

#Review #World Modeling #Latent Actions #Self-Improvement #Reinforcement Learning #LLMs #VLMs #Inverse Dynamics Model #Forward World Modelling

2026년 2월 8일

[논문리뷰] Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

다국어 환경에서 긴 추론 모델( LRMs )이 겪는 어려움, 즉 비영어권 질문에 대해 영어로 추론하려는 경향과 질문 언어로 추론 시 정확도가 현저히 떨어지는 문제를 해결하는 것을 목표로 합니다.

#Review #Multilingual Reasoning #Reinforcement Learning #Machine Translation #Question Understanding #Self-Improvement #Language Models #Cross-Lingual Alignment

2026년 2월 8일

[논문리뷰] AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering

본 논문은 LLM 에이전트의 자기 개선 방식이 종종 불안정하고 감사하기 어렵다는 문제점을 지적합니다.

#Review #LLM Agents #Release Engineering #Self-Improvement #Regression Testing #Continuous Integration #Flip-Centered Gating #Auditable Development #Software Engineering

2026년 1월 8일

[논문리뷰] Reinforcement Learning for Self-Improving Agent with Skill Library

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 복잡한 환경에서 지속적으로 자체 개선하고 적응하는 데 어려움을 겪는 문제를 해결합니다.

#Review #Reinforcement Learning (RL)#LLM Agents #Skill Library #Self-Improvement #Sequential Rollout #AppWorld dataset #GRPO

2025년 12월 23일

[논문리뷰] Self-Improving VLM Judges Without Human Annotations

본 논문은 VLM (Vision-Language Model) judge 를 훈련하기 위해 필요한 고비용의 인간 선호도 주석 또는 대규모 모델로부터의 지식 증류(distillation)에 대한 의존성을 제거하는 것을 목표로 합니다.

#Review #Vision-Language Models #Self-Improvement #Judge Models #Synthetic Data Generation #Iterative Refinement #Reward Modeling #Human-free Alignment

2025년 12월 7일

[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual Worlds

SIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.

#Review #Embodied AI #Generalist Agent #Virtual Worlds #Foundation Models #Gemini #Self-Improvement #Dialogue #Reasoning #Reinforcement Learning

2025년 12월 4일

[논문리뷰] Bootstrapping Task Spaces for Self-Improvement

본 논문은 대규모 언어 모델(LLM)이 추론 시 여러 단계에 걸쳐 스스로 개선하는 능력을 학습하는 방법을 연구합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Self-Improvement #Autocurriculum #Task-Space Exploration #Inference-Time Iteration #Policy Optimization

2025년 9월 8일

[논문리뷰] Improving Large Vision and Language Models by Learning from a Panel of Peers

본 논문은 대규모 시각-언어 모델(LVLMs)의 성능을 향상시키기 위해 고가의 인간 주석 데이터에 대한 의존성을 줄이는 새로운 자체 개선 프레임워크인 'Panel-of-Peers(PoP)'를 제안합니다.

#Review #Large Vision and Language Models (LVLMs)#Self-Improvement #Peer Learning #Preference Alignment #Reward Modeling #Multimodal Learning #Knowledge Transfer

2025년 9월 3일

[논문리뷰] Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

본 연구는 대규모 시각-언어 모델(LVLM)의 자기 개선 과정에서 발생하는 '매튜 효과'를 해결하는 것을 목표로 합니다.

#Review #LVLMs #Self-Improvement #Matthew Effect #Data Bias Mitigation #Distribution Reshaping #Trajectory Resampling #Visual Reasoning

2025년 10월 31일

[논문리뷰] Self-Improvement in Multimodal Large Language Models: A Survey

이 논문은 Multimodal Large Language Models (MLLMs)의 자기 개선(self-improvement) 분야에 대한 최초의 포괄적인 개요를 제공하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Self-Improvement #Data Collection #Data Organization #Model Optimization #Survey #Reinforcement Learning #Direct Preference Optimization

2025년 10월 6일

[논문리뷰] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

Vision-Language Models (VLMs)의 훈련이 고비용의 수동 주석 데이터셋 에 과도하게 의존하여 확장성과 모델의 능력 발전을 제약하는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language Models (VLMs)#Self-Play #Reinforcement Learning #Gamification #Data Efficiency #Strategic Reasoning #Multimodal AI #Self-Improvement

2025년 10월 1일