[논문리뷰] Kimi K2.5: Visual Agentic Intelligence

2026년 2월 2일수정: 2026년 2월 2일

링크: 논문 PDF로 바로 열기

저자: Kimi Team

핵심 연구 목표

본 논문은 일반 에이전트 지능(general agentic intelligence)을 발전시키기 위해 오픈소스 멀티모달 에이전트 모델 Kimi K2.5 를 소개합니다. 기존 순차적 에이전트 실행의 한계인 높은 지연 시간과 확장성 문제 를 해결하고, 텍스트와 비전 모달리티 간의 시너지 효과를 극대화하여 다양한 도메인에서 최첨단 성능 을 달성하는 것을 목표로 합니다.

핵심 방법론

Kimi K2.5는 MoonViT-3D 기반의 시각 인코더를 통해 텍스트와 비전을 조인트 최적화 하며, 초기 비전 퓨전, zero-vision SFT , 그리고 조인트 RL 기법을 활용하여 모달리티 간 상호 강화를 이끌어냅니다. 복잡한 작업을 병렬 처리하기 위해 Agent Swarm 이라는 자체 지향적인 병렬 에이전트 오케스트레이션 프레임워크와 Parallel-Agent Reinforcement Learning (PARL) 패러다임을 도입하여 동적으로 작업을 분해하고 동시에 실행합니다. 효율적인 멀티모달 훈련을 위해 Decoupled Encoder Process (DEP) 를 설계했습니다.

주요 결과

Kimi K2.5는 코딩, 비전, 추론 및 에이전트 작업을 포함한 다양한 도메인에서 최첨단 결과 를 달성했습니다. Agent Swarm 은 단일 에이전트 대비 최대 4.5배의 지연 시간 감소 와 WideSearch에서 Item-F1을 72.8%에서 79.0%로 향상 시켰습니다. 또한, 툴을 사용한 HLE 평가에서 50.2% 를 기록하여 Gemini 3 Pro(45.8%) 및 GPT-5.2(45.5%)를 능가했으며, 시각 RL은 MMLU-Pro에서 1.7% 의 텍스트 성능 향상을 보였습니다.

AI 실무자를 위한 시사점

Kimi K2.5는 복잡한 멀티모달 및 에이전트 작업을 위한 강력한 오픈소스 기반 을 제공하며, 병렬 에이전트 오케스트레이션 은 대규모 에이전트 시스템의 확장성과 효율성을 혁신 할 잠재력을 보여줍니다. 텍스트-비전 조인트 최적화 방법론(예: zero-vision SFT, 조인트 RL)은 멀티모달 AI 모델의 크로스모달 일반화 능력을 향상시키는 중요한 전략으로, 실제 응용 분야에서 시각적 추론 및 문제 해결 능력을 강화하는 데 기여할 수 있습니다. 훈련 인프라의 효율성(DEP) 개선은 대규모 멀티모달 모델 개발의 실용적 장벽을 낮춥니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing
현재글 : [논문리뷰] Kimi K2.5: Visual Agentic Intelligence
다음글 [논문리뷰] Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars