[논문리뷰] BrainJanus: A Unified Model for Understanding and Generation across Brain, Vision, and Language

2026년 6월 30일수정: 2026년 6월 30일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Haitao Wu, Qirui Zhang, Zhouheng Yao, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Omni space: Brain(fMRI), Vision(이미지), Language(텍스트) 등 서로 다른 모달리티의 데이터를 하나의 공유된 공간으로 매핑하기 위한 통합 토큰 시퀀스 공간입니다.
Unified Brain Tokenizer: 연속적인 뇌 신호(Neural dynamics)를 다른 모달리티와 호환되는 이산적인(Discrete) 토큰으로 양자화하여 Omni space로 투영하는 핵심 모듈입니다.
All-in-One Autoregressive Model: 단일 Transformer 백본을 통해 next-token prediction 방식으로 뇌 신호, 시각 정보, 언어 정보 간의 임의적인 any-to-any 생성을 수행하는 모델 구조입니다.
Brain Encoding/Decoding: 뇌 신호와 외부 자극(이미지/텍스트) 사이의 양방향 매핑을 의미하며, Encoding은 자극에서 뇌 신호를 합성하고, Decoding은 뇌 신호에서 자극을 재구성하거나 기술합니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 뇌-기계 인터페이스(BCI) 연구들이 Brain encoding과 decoding을 독립적인 작업으로 간주하고, 모달리티 간 통합이 결여된 단편적인 접근 방식을 취하는 한계를 해결하고자 합니다. 기존 연구들은 CLIP 등 외부 모델의 지식에 지나치게 의존하거나, 각 작업을 위한 별도의 모델을 학습시켜야 하는 비효율성을 안고 있습니다. 특히, 뇌 신호가 본질적으로 시각 및 언어적 의미를 통합적으로 처리함에도 불구하고, 이러한 다중 모달리티 간의 상호작용을 충분히 활용하지 못한다는 문제가 있습니다. 저자들은 이러한 한계를 극복하기 위해 뇌, 시각, 언어 모달리티를 단일 프레임워크 내에서 통합하는 BrainJanus 모델을 제안합니다 [Figure 1].

Figure 1: 생물학적 통합 및 제안 모델 개요

Figure 1 — 생물학적 통합 및 제안 모델 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Unified Brain Tokenizer를 통해 뇌 신호를 이산 토큰으로 변환하고, 이를 시각 및 언어 토큰과 함께 Omni space로 정렬하는 2단계 학습 프레임워크를 제안합니다 [Figure 2]. 첫 번째 단계에서는 VQ-style objective를 통해 뇌 신호를 이산화하며, 두 번째 단계에서는 공유된 토큰 시퀀스를 사용하여 All-in-One Autoregressive Model을 학습시킵니다. 실험 결과, BrainJanus는 뇌-텍스트 Decoding에서 BERTScore 38.12와 CLIP score 96.2%를 달성하여 기존 SOTA 모델들을 능가하는 성능을 보였습니다 [Table 2]. 또한 뇌-이미지 Decoding에서도 diffusion-free 방식을 취하면서도 기존 diffusion 기반 모델들을 상회하는 의미론적 정렬을 보여주었으며 [Table 3], 정성적 평가에서도 구조적 무결성과 의미론적 정확도 측면에서 우수한 재구성 결과를 입증하였습니다 [Figure 3, 4].

Figure 2: BrainJanus 모델 아키텍처

Figure 2 — BrainJanus 모델 아키텍처

4. Conclusion & Impact (결론 및 시사점)

본 논문은 뇌, 시각, 언어 모달리티를 이산 토큰 공간에서 통합한 최초의 범용 뇌 모델인 BrainJanus를 성공적으로 구축하였습니다. 이 연구는 뇌-신경 신호를 단순한 데이터가 아닌 다른 디지털 모달리티와 언어적으로 상호작용 가능한 정보로 격상시켰다는 학술적 의의를 갖습니다. 향후 BCI 분야에서 더욱 복잡한 다중 모달리티 통합 연구를 위한 견고한 파라다임으로 활용될 것으로 기대되며, 해석 가능한 생물학적 토포그래피를 유지함으로써 뇌 과학과 인공지능 분야의 가교 역할을 할 것입니다.

Figure 3: 뇌 캡션 디코딩 결과 비교

Figure 3 — 뇌 캡션 디코딩 결과 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] BlockPilot: Instance-Adaptive Policy Learning for Diffusion-based Speculative Decoding
현재글 : [논문리뷰] BrainJanus: A Unified Model for Understanding and Generation across Brain, Vision, and Language
다음글 [논문리뷰] DOPD: Dual On-policy Distillation