[논문리뷰] RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes

2026년 1월 8일수정: 2026년 1월 8일

링크: 논문 PDF로 바로 열기

저자: Yuan-Kang Lee, Kuan-Lin Chen, Chia-Che Chang, Yu-Lun Liu

핵심 연구 목표

본 논문은 저조도 야간 환경에서 자동 화이트 밸런스(AWB) 보정의 신뢰성 및 일반화 문제를 해결하는 것을 목표로 합니다. 특히, 저조도 노이즈, 복잡한 조명 조건, 그리고 다양한 카메라 센서 간의 배포 환경에서 기존 AWB 알고리즘이 겪는 불안정성과 성능 저하를 극복하고, 적은 학습 데이터로도 우수한 크로스-센서 일반화 성능을 갖춘 AWB 시스템을 개발하고자 합니다.

핵심 방법론

본 연구는 통계적 색채 불변성 알고리즘과 심층 강화 학습(DRL) 을 결합한 RL-AWB 프레임워크 를 제안합니다. 먼저, 야간 장면에 특화된 통계적 알고리즘인 SGP-LRD (Salient Gray Pixels with Local Reflectance Differences) 를 개발하여 신뢰할 수 있는 그레이 픽셀을 식별하고 조명을 추정합니다. 이어서, Soft Actor-Critic (SAC) 기반의 DRL 에이전트가 SGP-LRD의 핵심 파라미터(그레이 픽셀 샘플링 비율 N% 및 Minkowski norm p)를 동적으로 최적화하며, 2단계 커리큘럼 학습(Single-Image Parameter Tuning, Multi-Image Adaptive Tuning) 을 통해 효율적인 파라미터 튜닝을 수행합니다. 성능 평가 및 크로스-센서 일반화 검증을 위해 최초의 다중 센서 야간 데이터셋인 LEVI 를 구축했습니다.

주요 결과

RL-AWB는 5개의 학습 이미지 만으로도 NCC 데이터셋에서 중간 각도 오차 1.98° , LEVI 데이터셋에서 3.01° 를 기록하여, SGP-LRD 알고리즘의 수동 최적화 파라미터 및 기존 학습 기반 베이스라인 C5(5)의 5.56° 대비 월등히 우수했습니다. 특히 크로스-데이터셋 일반화 테스트에서 NCC → LEVI 전환 시 중간 오차 3.03° , LEVI → NCC 전환 시 중간 오차 1.99° 로, 기존 학습 기반 방법론들이 겪는 심각한 성능 저하와 비교하여 안정적인 성능과 뛰어난 일반화 능력을 입증했습니다.

AI 실무자를 위한 시사점

이 연구는 통계적 방법론과 DRL의 효과적인 결합 이 저조도 야간 AWB와 같은 복잡한 이미지 처리 문제를 해결하는 데 매우 유용함을 보여줍니다. 소수의 학습 데이터 만으로도 크로스-센서 환경에서 뛰어난 일반화 성능을 달성하여, 데이터 수집이 어려운 실제 응용 분야 에서 DRL 적용의 가능성을 확장합니다. 기존의 매개변수 조정이 필요한 알고리즘 에 DRL을 적용하여 자동화된 최적화 시스템 을 구축하는 새로운 접근 방식을 제시하며, 이는 카메라 ISP 파이프라인의 실시간 적응형 제어 및 최적화에 크게 기여할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Plenoptic Video Generation
현재글 : [논문리뷰] RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes
다음글 [논문리뷰] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing