[논문리뷰] HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
링크: 논문 PDF로 바로 열기
Part 1: 요약 본문
메타데이터
저자: Tencent Robotics X × HY Vision Team
1. Key Terms & Definitions (핵심 용어 및 정의)
- HY-Embodied-0.5 : 실세계 로봇 에이전트를 위해 설계된 Embodied Foundation Model 제품군으로, MoT-2B (Edge용)와 MoE-A32B (고성능용) 모델을 포함합니다.
- MoT(Mixture-of-Transformers) : 언어 토큰과 비전 토큰 처리를 위해 비공유 매개변수를 사용하는 아키텍처로, 모델의 언어 능력을 유지하면서 시각적 처리 용량을 극대화합니다.
- Visual Latent Tokens : 비전 인코더의 출력 뒤에 추가되는 학습 가능한 토큰으로, 비전과 언어 모달리티 간의 강력한 연결 및 정밀한 시각적 특징 추출을 수행합니다.
- On-policy Distillation : 대형 모델에서 소형 모델로 지식을 전송하는 기법으로, 소형 모델이 자기 자신의 정책에 의해 생성된 상태에서 교사 모델의 분포를 학습하도록 하여 성능 저하를 최소화합니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 일반적인 VLM이 실세계의 복잡한 물리 환경에서 요구하는 세밀한 시각적 인지와 역동적인 계획 능력을 제공하지 못하는 한계를 해결하고자 합니다. 기존 모델들은 정적인 웹 규모 데이터셋 위주로 학습되어 실시간으로 변화하는 환경에서의 물리적 근거(Physical Grounding)와 행동 지향적인 상호작용 및 계획 수립이 부족합니다. 따라서 저자들은 로봇 제어와 물리적 이해를 아우르는 에이전트 전용 파운데이션 모델인 HY-Embodied-0.5 를 제안합니다 [Figure 1].
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 모달리티 적응형 컴퓨팅을 위한 MoT 아키텍처와 비전-언어 연결을 강화하는 Visual Latent Tokens 를 핵심 방법론으로 제안합니다 [Figure 2]. 시각적 인지 능력 향상을 위해 HY-ViT 2.0 인코더를 탑재하고, 고품질 embodied 데이터를 활용한 반복적인 사후 학습 패러다임을 설계했습니다. 실험 결과, MoT-2B 모델은 22개의 embodied 벤치마크 중 16개에서 유사 크기의 state-of-the-art 모델 대비 최고의 성능을 기록했습니다 [Table 1]. 또한, MoE-A32B 모델은 벤치마크 평균 점수 67.0%를 달성하여 frontier 모델인 Gemini 3.0 Pro (63.6%)를 상회하는 성능을 보여주었습니다 [Table 2]. 실제 로봇 제어 실험에서는 HY-Embodied-0.5 기반의 VLA 모델이 'Mug Hanging'과 같은 어려운 작업에서 타 모델 대비 월등한 제어 성공률을 보였습니다 [Figure 13].
4. Conclusion & Impact (결론 및 시사점)
본 연구는 HY-Embodied-0.5 를 통해 일반 VLM의 범용성과 embodied 에이전트의 물리적 전문성 사이의 간극을 효과적으로 극복했습니다. 이 모델은 효율적인 MoT 구조와 데이터 효율적인 학습 전략을 통해 경량 모델에서도 고도의 reasoning 및 제어 능력을 구현해냈습니다. 이는 실세계 로봇 제어와 에이전트 시스템 분야에서 Foundation Model의 실용적 활용 가능성을 크게 확장했으며, 향후 더 복잡한 물리적 환경에서의 자율 에이전트 개발을 위한 중요한 기반 기술이 될 것으로 기대됩니다.
Part 2: 중요 Figure 정보
[
{
"figure_id": "Figure 2",
"image_url": "https://arxiv.org/html/2604.07430v1/x2.png",
"caption_kr": "MoT 모델 아키텍처"
},
{
"figure_id": "Figure 13",
"image_url": "https://arxiv.org/html/2604.07430v1/x13.png",
"caption_kr": "로봇 제어 실험 결과"
},
{
"figure_id": "Figure 10",
"image_url": "https://arxiv.org/html/2604.07430v1/x10.png",
"caption_kr": "Chain-of-Thought 예시"
}
]
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
- [논문리뷰] Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization
- [논문리뷰] Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning
- [논문리뷰] The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning
- [논문리뷰] MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control
Review 의 다른글
- 이전글 [논문리뷰] Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills
- 현재글 : [논문리뷰] HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
- 다음글 [논문리뷰] ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models
댓글