[논문리뷰] Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

수정: 2026년 1월 22일

링크: 논문 PDF로 바로 열기

저자: Yifan Wang, Shiyu Li, Peiming Li, Xiaochen Yang, Yang Tang, Zheng Wei

핵심 연구 목표

본 논문은 Chain-of-Thought (CoT) 프롬프팅의 지나친 장황함으로 인한 높은 연산 오버헤드중간 추론 과정의 불투명성 문제를 해결하고자 합니다. 텍스트 CoT 단계를 이미지로 렌더링하여 시각적 잠재 추론 공간에서 추론 과정을 명시적이고 추적 가능하게 만들면서도 효율성을 크게 향상시키는 새로운 프레임워크를 제안합니다.

핵심 방법론

제안하는 Render-of-Thought (RoT) 프레임워크는 텍스트 CoT 단계를 단일 라인 이미지 로 렌더링하고 사전 훈련된 Vision Encoder (고정) 를 의미론적 앵커로 활용합니다. 두 단계 훈련 패러다임 을 통해 LLM의 잠재 상태를 시각적 임베딩에 정렬하며, 2단계 MLP Projection Head (SwiGLU 활성화) 를 사용하여 LLM의 은닉 상태를 시각적 특성과 매핑합니다. 추론 시에는 렌더링 및 시각적 인코딩 단계를 생략하고, 고정된 토큰 예산 을 사용하여 안정적인 추론 종료를 유도합니다.

주요 결과

RoT는 명시적인 CoT 대비 3-4배의 토큰 압축률 과 상당한 추론 가속화를 달성했습니다. 특히 Qwen3-VL-4B-Instruct 모델에서 32개의 잠재 토큰 만으로 명시적 CoT의 108.4개 토큰 과 유사한 성능을 보였습니다. GSM-Hard 데이터셋 에서 추론 시간을 8.55초에서 1.84초 로 단축시키며 경쟁 모델들을 능가했습니다. 또한, MATH 데이터셋 에서 64개의 잠재 토큰 을 사용하여 33.2% Pass@1 정확도 를 기록하며 우수한 성능을 유지했습니다.

AI 실무자를 위한 시사점

RoTCoT 추론의 효율성 을 획기적으로 개선하여 LLM 기반 애플리케이션의 배포 비용을 절감 하고 실시간 응답 속도를 향상 시킬 수 있습니다. 특히 기존 VLM의 Vision Encoder를 활용 하여 추가적인 사전 훈련 없이 플러그 앤 플레이 방식 으로 CoT 프롬프팅을 확장할 수 있어 AI 개발자에게 큰 이점을 제공합니다. 고정된 토큰 예산 전략 의 중요성과 작업별 토큰 예산 캘리브레이션 필요성은 실무에서 모델 최적화 시 고려해야 할 중요한 요소입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Chain-of-Thought (CoT)#Large Language Models (LLMs)#Vision Language Models (VLMs)#Latent Reasoning#Visual Modality#Image Rendering#Computational Efficiency#Knowledge Distillation

Review 의 다른글