#Online Learning

8개의 포스트

[논문리뷰] StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing

본 논문은 대규모 LLM 기반 압축 기술이 요구하는 엄청난 컴퓨팅 자원과 외부 가중치 전송의 비실용성을 해결하기 위해 완전 online 신경망 압축 방식을 제안한다. 기존의 고성능 신경망 압축 모델들은 수억 개의 파라미터를 외부에서 가져와야 하므로 범용적인 환경에서 사용하기 어렵다.

#Review #Lossless Compression #State Space Models #Mamba #Online Learning #Arithmetic Coding #N-gram #BPE Tokenisation

2026년 5월 5일

[논문리뷰] Online Self-Calibration Against Hallucination in Vision-Language Models

본 논문은 기존의 offline 선호도 정렬 방식이 LVLM의 hallucination 문제를 해결하는 데 오히려 역효과를 낼 수 있다는 Supervision-Perception Mismatch 문제를 제기한다.

#Review #Vision-Language Models #Hallucination #Monte Carlo Tree Search #Preference Alignment #DPO #Generative-Discriminative Gap #Online Learning

2026년 5월 3일

[논문리뷰] Efficient Exploration at Scale

오늘날 대규모 언어 모델(LLM)은 방대한 데이터를 학습하며 발전했지만, LLM의 능력을 인간의 선호도에 맞춰 정렬하는 데 필요한 고품질의 informative한 데이터를 효율적으로 수집하는 것은 여전히 중요한 과제입니다.

#Review #RLHF #Data Efficiency #Active Exploration #Epistemic Neural Network #Information-Directed Sampling #Scaling Laws #Large Language Models #Online Learning

2026년 3월 18일

[논문리뷰] OpenClaw-RL: Train Any Agent Simply by Talking

본 논문은 AI 에이전트가 사용자 피드백, 툴 실행 결과, GUI 상태 변화 등 '다음 상태 신호(next-state signals)' 를 통해 실시간으로 지속적인 학습을 수행하도록 하는 프레임워크를 제안합니다.

#Review #Reinforcement Learning (RL)#Agentic AI #Online Learning #Next-State Signals #Process Reward Models (PRM)#On-Policy Distillation (OPD)#Multi-Modal Agents

2026년 3월 11일

[논문리뷰] π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

본 논문은 플로우 기반 Vision-Language-Action (VLA) 모델이 온라인 강화 학습(RL)에서 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 다단계 샘플링 시 계산하기 어려운 우도(likelihood) 문제와, 미세 조정 후 행동 다양성이 부족하여 사소한 편차에도 취약해지는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Flow-based Models #Vision-Language-Action (VLA) Models #Online Learning #Stochastic Differential Equation (SDE)#Contrastive Learning #Embodied AI #Robotics

2026년 3월 8일

[논문리뷰] SCOPE: Prompt Evolution for Enhancing Agent Effectiveness

대규모 언어 모델(LLM) 에이전트가 방대한 동적 컨텍스트에 직면했을 때 정적인 프롬프트로 인해 발생하는 '수정(Corrective)' 및 '강화(Enhancement)' 실패 를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Prompt Optimization #Context Management #Online Learning #Agent Effectiveness #Self-Evolving Prompts #Trace-Based Learning #Dual-Stream Routing

2025년 12월 17일

[논문리뷰] Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

논문은 LLM이 정적, 단일 턴 데이터로 훈련되어 확장된 다중 턴 상호작용에서 성능이 저하되고 실시간 사용자 피드백에 적응하기 어려운 문제를 해결하고자 합니다.

#Review #Large Language Models #Multi-turn Interaction #Test-Time Adaptation #Reinforcement Learning from Human Feedback #Policy Optimization #Online Learning #Self-Correction

2025년 10월 1일

[논문리뷰] TTT3R: 3D Reconstruction as Test-Time Training

본 논문은 최신 RNN 기반 3D 재구성 모델 이 긴 시퀀스에 적용될 때 발생하는 길이 일반화(length generalization) 부족 과 재앙적 망각(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.

#Review #3D Reconstruction #Test-Time Training (TTT)#Recurrent Neural Networks (RNN)#Online Learning #Length Generalization #Associative Memory #State Update Rule

2025년 10월 1일