[논문리뷰] References Improve LLM Alignment in Non-Verifiable Domains이 논문은 검증 불가능한 도메인(예: LLM 정렬 튜닝)에서 강화 학습(RL) 의 적용 한계를 극복하기 위해 레퍼런스(참조 출력)를 활용한 LLM-as-a-Judge 평가자가 '소프트 검증기' 역할을 할 수 있는지 탐구합니다.#Review#LLM Alignment#Reference-Guided Evaluation#Self-Improvement#Non-Verifiable Domains#Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Self-Improving World Modelling with Latent Actions본 논문은 액션이 레이턴트 변수로 취급되는 상태-온리 시퀀스 로부터 LLM(Large Language Models) 및 VLM(Vision-Language Models)의 내재적 월드 모델링 능력을 향상시키는 것을 목표로 합니다.#Review#World Modeling#Latent Actions#Self-Improvement#Reinforcement Learning#LLMs#VLMs#Inverse Dynamics Model#Forward World Modelling2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training다국어 환경에서 긴 추론 모델( LRMs )이 겪는 어려움, 즉 비영어권 질문에 대해 영어로 추론하려는 경향과 질문 언어로 추론 시 정확도가 현저히 떨어지는 문제를 해결하는 것을 목표로 합니다.#Review#Multilingual Reasoning#Reinforcement Learning#Machine Translation#Question Understanding#Self-Improvement#Language Models#Cross-Lingual Alignment2026년 2월 8일댓글 수 로딩 중
[논문리뷰] AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering본 논문은 LLM 에이전트의 자기 개선 방식이 종종 불안정하고 감사하기 어렵다는 문제점을 지적합니다.#Review#LLM Agents#Release Engineering#Self-Improvement#Regression Testing#Continuous Integration#Flip-Centered Gating#Auditable Development#Software Engineering2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning for Self-Improving Agent with Skill Library본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 복잡한 환경에서 지속적으로 자체 개선하고 적응하는 데 어려움을 겪는 문제를 해결합니다.#Review#Reinforcement Learning (RL)#LLM Agents#Skill Library#Self-Improvement#Sequential Rollout#AppWorld dataset#GRPO2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Self-Improving VLM Judges Without Human Annotations본 논문은 VLM (Vision-Language Model) judge 를 훈련하기 위해 필요한 고비용의 인간 선호도 주석 또는 대규모 모델로부터의 지식 증류(distillation)에 대한 의존성을 제거하는 것을 목표로 합니다.#Review#Vision-Language Models#Self-Improvement#Judge Models#Synthetic Data Generation#Iterative Refinement#Reward Modeling#Human-free Alignment2025년 12월 7일댓글 수 로딩 중
[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual WorldsSIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.#Review#Embodied AI#Generalist Agent#Virtual Worlds#Foundation Models#Gemini#Self-Improvement#Dialogue#Reasoning#Reinforcement Learning2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Bootstrapping Task Spaces for Self-Improvement본 논문은 대규모 언어 모델(LLM)이 추론 시 여러 단계에 걸쳐 스스로 개선하는 능력을 학습하는 방법을 연구합니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Self-Improvement#Autocurriculum#Task-Space Exploration#Inference-Time Iteration#Policy Optimization2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Improving Large Vision and Language Models by Learning from a Panel of Peers본 논문은 대규모 시각-언어 모델(LVLMs)의 성능을 향상시키기 위해 고가의 인간 주석 데이터에 대한 의존성을 줄이는 새로운 자체 개선 프레임워크인 'Panel-of-Peers(PoP)'를 제안합니다.#Review#Large Vision and Language Models (LVLMs)#Self-Improvement#Peer Learning#Preference Alignment#Reward Modeling#Multimodal Learning#Knowledge Transfer2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing본 연구는 대규모 시각-언어 모델(LVLM)의 자기 개선 과정에서 발생하는 '매튜 효과'를 해결하는 것을 목표로 합니다.#Review#LVLMs#Self-Improvement#Matthew Effect#Data Bias Mitigation#Distribution Reshaping#Trajectory Resampling#Visual Reasoning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Self-Improvement in Multimodal Large Language Models: A Survey이 논문은 Multimodal Large Language Models (MLLMs)의 자기 개선(self-improvement) 분야에 대한 최초의 포괄적인 개요를 제공하는 것을 목표로 합니다.#Review#Multimodal Large Language Models (MLLMs)#Self-Improvement#Data Collection#Data Organization#Model Optimization#Survey#Reinforcement Learning#Direct Preference Optimization2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-PlayVision-Language Models (VLMs)의 훈련이 고비용의 수동 주석 데이터셋 에 과도하게 의존하여 확장성과 모델의 능력 발전을 제약하는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language Models (VLMs)#Self-Play#Reinforcement Learning#Gamification#Data Efficiency#Strategic Reasoning#Multimodal AI#Self-Improvement2025년 10월 1일댓글 수 로딩 중