[논문리뷰] Shallow-π: Knowledge Distillation for Flow-based VLAs

2026년 1월 29일수정: 2026년 1월 29일

링크: 논문 PDF로 바로 열기

저자: Boseong Jeon, Yunho Choi, Taehan Kim

핵심 연구 목표

본 논문은 대규모 Vision-Language-Action (VLA) 모델 의 높은 연산 비용으로 인해 엣지 디바이스에서의 실시간 배포가 어려운 문제를 해결하고자 합니다. 특히, VLM 백본과 플로우 기반 액션 헤드 모두에 걸쳐 트랜스포머 레이어 깊이를 효율적으로 줄이는 지식 증류(Knowledge Distillation) 프레임워크인 Shallow-π 를 제안하여, 성능 저하를 최소화하면서 추론 속도를 대폭 향상시키는 것을 목표로 합니다.

핵심 방법론

Shallow-π 는 VLM 백본 과 플로우 기반 액션 헤드 의 트랜스포머 깊이를 공동으로 압축하는 지식 증류 프레임워크 입니다. 이를 위해 ground-truth supervision (L_task) , 교사 궤적 모방(L_kd) , 그리고 중간 어텐션 전이(L_attn) 를 포함하는 세 가지 증류 목표를 설계했습니다. 특히, 어텐션 증류는 플로우 기반 VLA의 구조적 특성을 고려하여 액션 토큰에 대해서만 수행하며, 중간 트랜스포머 레이어 에 적용하여 최적의 성능을 달성합니다.

주요 결과

Shallow-π 는 트랜스포머 레이어를 18개에서 6개로 줄여, 표준 조작 벤치마크에서 성공률을 1% 미만 으로 감소시키면서도 2배 이상 빠른 추론 속도 를 달성했습니다. 특히, Jetson Orin 에서 동적 작업의 E2E 추론 시간을 110ms 로 단축했으며, LIBERO 벤치마크 L6 모델 에서 95%의 성공률 을 기록하며 기존 소형 백본 모델인 SmolVLA 를 능가하는 최첨단 성능을 입증했습니다.

AI 실무자를 위한 시사점

본 연구는 고성능 VLA 모델 을 Jetson Orin/Thor 와 같은 엣지 디바이스에 실시간으로 배포할 수 있는 실용적인 방안을 제시합니다. 모델 경량화를 위해 시각 토큰 압축 이나 동적 레이어 스키핑 대신, 체계적인 트랜스포머 깊이 축소 와 지식 증류 가 효율적인 전략임을 보여줍니다. 이는 로봇 공학 및 기타 엣지 AI 애플리케이션에서 대규모 생성 AI 모델 의 실용성을 높이는 중요한 이정표가 될 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] SERA: Soft-Verified Efficient Repository Agents
현재글 : [논문리뷰] Shallow-π: Knowledge Distillation for Flow-based VLAs
다음글 [논문리뷰] SketchDynamics: Exploring Free-Form Sketches for Dynamic Intent Expression in Animation Generation