[논문리뷰] EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation본 논문은 비디오 생성 모델(VGM) 이 생성하는 물리적으로 비현실적인 동작(physical hallucinations)과 픽셀-로봇 동작 변환(geometric retargeting) 에서 발생하는 누적 오류로 인해 zero-shot 로봇 조작 의 성공률이 낮은 문제를 해결하는 것을 목표로 합니다.#Review#Zero-Shot Manipulation#Video Generation Models#Vision-Language Models#Compositional Constraints#Robotics#Trajectory Optimization#Real-Robot Control2026년 3월 11일댓글 수 로딩 중
[논문리뷰] QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining금융 시장의 노이즈와 비정상성으로 인해 알파 마이닝이 겪는 불안정성과 시장 변화에 대한 민감성을 해결하고자 합니다. 기존 에이전트 기반 프레임워크가 가진 제한적인 다중 라운드 탐색 및 검증된 경험 재사용의 한계를 극복하고, LLM 기반 알파 요인 의 품질과 견고성을 향상시키는 것을 목표로 합니다.#Review#Alpha Mining#LLM-Driven Agents#Evolutionary Algorithms#Financial Markets#Factor Generation#Trajectory Optimization#Quantitative Investment2026년 2월 9일댓글 수 로딩 중
[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action ModelsVision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.#Review#Reinforcement Learning#Vision-Language-Action Models#Reward Shaping#World Models#Self-Referential Learning#Robotics#Trajectory Optimization2025년 11월 20일댓글 수 로딩 중
[논문리뷰] PORTool: Tool-Use LLM Training with Rewarded Tree기존 도구 사용 LLM이 정적 데이터셋에 의존하여 동적이고 실제적인 도구 호출 환경에서 탐색 능력이 제한되고 낮은 성능을 보이는 문제를 해결합니다.#Review#Tool-Use LLM#Reinforcement Learning (RL)#Policy Optimization#Rewarded Tree#Trajectory Optimization#Agentic System#Dynamic Tool Call2025년 10월 31일댓글 수 로딩 중