[논문리뷰] Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

2026년 1월 5일수정: 2026년 1월 5일

링크: 논문 PDF로 바로 열기

저자: Iheb Chaabane, Puneesh Khanna, Suhail Mohmad, Slim Frikha, Shi Hu, Abdalgader Abubaker, Reda Alami, Mikhail Lubinets, Mohamed El Amine Seddik, Hakim Hacid

핵심 연구 목표

본 연구는 7B 파라미터의 소규모 언어 모델(SLM)인 Falcon-H1R 이 대규모 모델(2배에서 7배 더 큼)과 경쟁하거나 능가하는 추론 성능을 달성할 수 있음을 입증하는 것을 목표로 합니다. 특히, 추론 집약적인 벤치마크에서 뛰어난 성능과 동시에, 병렬 추론 환경에서 발생하는 높은 연산 비용 문제를 해결하여 테스트 시간 스케일링(TTS)의 효율성을 극대화하는 데 중점을 둡니다.

핵심 방법론

이 모델은 효율적인 추론을 위해 Falcon-H1 하이브리드 Transformer-Mamba 아키텍처 를 활용합니다. 훈련은 고품질의 추론 데이터를 엄격하게 선별하고 난이도별 가중치를 적용한 콜드 스타트 지도 미세 조정(SFT) 단계부터 시작하여, 최대 48K 토큰 길이의 추론 트레이스 를 처리합니다. 이후 GRPO 기반 강화 학습(RL) 을 통해 성능을 더욱 향상시키며, 특히 DeepConf 방법을 사용하여 모델의 신뢰도를 바탕으로 병렬 추론 체인을 동적으로 필터링하고 집계하여 TTS 효율성을 최적화합니다.

주요 결과

Falcon-H1R-7B 는 AIME24 (88.1%) , AIME25 (83.1%) , HMMT25 (64.9%) , AMO-Bench (36.3%) , MATH500 (97.4%) 등 주요 수학 추론 벤치마크에서 SOTA 모델들을 능가하거나 동등한 성능을 보였습니다. 특히, DeepConf 적용 시 AIME25에서 96.7%의 정확도 를 달성하면서 DeepSeek-R1-0528-Qwen3-8B 대비 토큰 사용량을 38% 절감 하여, 높은 정확도와 뛰어난 토큰 효율성을 동시에 입증했습니다.

AI 실무자를 위한 시사점

Falcon-H1R-7B 는 소규모 언어 모델이 복잡한 추론 작업에서 대규모 모델에 필적하는 성능을 낼 수 있음을 보여주어, 비용 효율적인 AI 개발의 새로운 가능성을 제시합니다. 하이브리드 아키텍처와 정교한 훈련 전략은 리소스 제약이 있는 환경에서 고성능 추론 시스템을 구축하려는 엔지니어에게 중요한 지침이 될 수 있습니다. DeepConf 와 같은 테스트 시간 스케일링 기법 과의 통합은 병렬 CoT(Chain-of-Thought) 생성 환경에서 실제 적용 가능성과 경제성을 크게 향상시킵니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer
현재글 : [논문리뷰] Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling
다음글 [논문리뷰] GARDO: Reinforcing Diffusion Models without Reward Hacking