#Adaptive Policy

4개의 포스트

[논문리뷰] RewardFlow: Generate Images by Optimizing What You Reward

본 연구는 기존의 diffusion 기반 이미지 편집 모델들이 요구하는 고비용의 fine-tuning 또는 불안정한 inversion 과정을 극복하고, zero-shot 설정에서 보다 정교하고 일관된 편집을 수행하는 것을 목적으로 합니다.

#Review #Diffusion Models #Flow Matching #Langevin Dynamics #Image Editing #Zero-shot Generation #Multi-reward Guidance #Adaptive Policy

2026년 4월 9일

[논문리뷰] Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

본 논문은 LLM 기반 에이전트가 새로운 환경에서 적응하지 못하고 에피소드마다 동일한 오류를 반복하는 한계를 해결하고자 한다. 기존의 TTL 방식은 주로 고정된, 사람이 직접 설계한(hand-crafted) 휴리스틱에 의존하며, 이는 에이전트의 실질적인 학습 능력을 충분히 이끌어내지 못한다.

#Review #Test-Time Learning #Language Agents #Meta-Learning #Evolutionary Optimization #Adaptive Policy #LLM Agents #Prompt Engineering

2026년 4월 6일

[논문리뷰] Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

이 논문은 LLM 에이전트가 복잡한 실제 작업을 수행할 때 발생하는 과도한 사고(thought) 및 관찰(observation) 컨텍스트 축적 문제 를 해결하고 효율성을 향상시키는 것을 목표로 합니다.

#Review #LLM Agents #Agent Efficiency #Context Management #Thought Omission #Observation Omission #Reinforcement Learning #Adaptive Policy

2026년 2월 4일

[논문리뷰] REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation

동시 음성 번역(SimulST) 시스템에서 번역 품질과 지연 시간 간의 최적의 균형을 달성하는 것이 주요 과제입니다.

#Review #Simultaneous Speech Translation #Adaptive Policy #Entropy-based Loss #Mutual Information #Latency-Quality Trade-off #Speech-to-Text Translation #REINA

2025년 8월 8일