賦予機(jī)器人類水平的想象力,使之能夠自主地感知環(huán)境和創(chuàng)造圖畫是人工智能領(lǐng)域的前沿方向。近日,中科院自動(dòng)化所智能感知與計(jì)算研究中心提出一種新的人臉圖像數(shù)據(jù)生成方法,能夠從無到有地生產(chǎn)出20萬張?jiān)谡鎸?shí)世界不存在的人臉虛擬圖像。該方法能夠有效緩解異質(zhì)人臉識(shí)別中數(shù)據(jù)采集成本高昂的問題,充分利用少量真實(shí)樣本進(jìn)行深度學(xué)習(xí)。科研人員借助這些生成的逼真虛擬圖像,在近紅外-可見光、熱紅外-可見光、素描-照片、側(cè)臉-正臉、身份證-相機(jī)照片等一系列具有挑戰(zhàn)性的人臉識(shí)別應(yīng)用中都觀測到了顯著的識(shí)別性能提升。
目前,該論文已被NeurIPS2019大會(huì)接收為Spotlight。NeurIPS為人工智能領(lǐng)域國際頂級(jí)學(xué)術(shù)會(huì)議,今年共收到6743篇投稿,最終收錄1428篇論文(包含36篇Oral和164篇Spotlights),Oral+Spotlights接受率僅為2.9%。
一、研究背景
異質(zhì)人臉識(shí)別在現(xiàn)實(shí)生活中有著十分廣泛的應(yīng)用前景,卻也面臨著眾多挑戰(zhàn)。例如,近紅外傳感器對(duì)于光照變化具有很好的魯棒性,即使在黑暗環(huán)境下也能清晰成像。因此,主流手機(jī)廠商(如蘋果、華為、小米等),均采用近紅外人臉識(shí)別技術(shù)。但是,由于近紅外和可見光數(shù)據(jù)之間巨大的域差異以及配對(duì)異質(zhì)數(shù)據(jù)的嚴(yán)重不足,異質(zhì)人臉識(shí)別問題仍未徹底解決。
近年來興起的高質(zhì)量圖像生成技術(shù)給異質(zhì)人臉識(shí)別帶來了新穎而經(jīng)濟(jì)的解決思路。然而,以往基于生成模型的方法多采用條件圖像生成的方式實(shí)現(xiàn)不同圖像域之間的轉(zhuǎn)換,從而減小域差異。這類方法面臨著兩個(gè)主要的問題(以近紅外-可見光異質(zhì)數(shù)據(jù)為例):
(1)多樣性不足。給定一張近紅外圖像,基于條件圖像生成的方法只能合成一張可見光圖像。這意味著這種方式在小樣本數(shù)據(jù)條件下只能合成少量數(shù)據(jù)。另外,合成的可見光圖像與原始的近紅外圖像相比,除了光譜信息變化外,其他屬性(例如姿態(tài)和表情)都保持不變。這導(dǎo)致生成數(shù)據(jù)和原始的近紅外數(shù)據(jù)之間的類內(nèi)多樣性有限。
(2)身份信息難以保持。基于條件圖像生成的方法要求生成的可見光圖像與原始輸入的近紅外圖像保持完全相同的身份。然而,由于缺乏對(duì)類內(nèi)和類間距離的有效約束,在實(shí)際算法中,身份信息很難充分保持。
二、方法簡述
圖1. 對(duì)偶圖像生成方法框架圖
圖1的左半部分顯示了我們提出的對(duì)偶生成模型(Dual Variational Generation, DVG)的目的。對(duì)偶生成模型屬于無條件生成模型,通過從噪聲中生成大規(guī)模的配對(duì)虛擬數(shù)據(jù)作為數(shù)據(jù)增廣,減小異質(zhì)人臉識(shí)別網(wǎng)絡(luò)中的域差異。為了實(shí)現(xiàn)這一目的,我們精心設(shè)計(jì)了一個(gè)對(duì)偶變分自編碼器,如圖1的右半部分所示。給定一對(duì)具有相同身份的配對(duì)異質(zhì)人臉數(shù)據(jù),對(duì)偶變分自編碼器在隱空間中學(xué)習(xí)配對(duì)異質(zhì)數(shù)據(jù)的聯(lián)合分布。為了保證生成的配對(duì)異質(zhì)數(shù)據(jù)的身份一致性,我們分別在隱空間和像素空間中施加了分布對(duì)齊損失和成對(duì)身份保持損失。
通過這種方式,我們賦予機(jī)器一定程度的想象力。如圖2所示,生成的配對(duì)異質(zhì)數(shù)據(jù)在姿態(tài)、表情等屬性上都具有一定的差異,因此生成的虛擬數(shù)據(jù)具有豐富的類內(nèi)多樣性。此外,不同于基于條件圖像生成的方法,對(duì)偶生成模型不再要求生成的數(shù)據(jù)屬于具體的某個(gè)類別,只約束生成的配對(duì)異質(zhì)數(shù)據(jù)之間的身份一致性。
三、應(yīng)用
1. 近紅外-可見光(NIR-VIS)
我們?cè)贑ASIA NIR-VIS 2.0、Oulu-CASIA NIR-VIS和BUAA-VisNir三個(gè)NIR-VIS數(shù)據(jù)庫上驗(yàn)證對(duì)偶生成模型的有效性。圖2顯示出我們生成的高質(zhì)量虛擬數(shù)據(jù)具有豐富的類內(nèi)多樣性,如姿態(tài)表情等。表1的量化結(jié)果顯示,使用生成的虛擬數(shù)據(jù)后,識(shí)別性能大幅度提升(‘+DVG’表示使用生成的虛擬數(shù)據(jù))。例如在Oulu-CASIA NIR-VIS數(shù)據(jù)庫上,VR@FAR=0.1%提升了24.6%(DVG 92.9% - LightCNN-29 68.3%)。我們的方法在三個(gè)NIR-VIS數(shù)據(jù)庫上都取得了當(dāng)前最好的識(shí)別性能。
圖2. 對(duì)偶生成結(jié)果(生成現(xiàn)實(shí)世界中不存在的配對(duì)人臉圖像)
表1. 量化結(jié)果對(duì)比
2. 熱紅外-可見光(Thermal-VIS)
由于熱成像儀可以捕捉人體發(fā)出的熱輻射,在低光或黑暗環(huán)境下成像,因此被廣泛部署于可穿戴設(shè)備、瞭望塔、檢查站中。包括美國陸軍實(shí)驗(yàn)室在內(nèi)的眾多研究機(jī)構(gòu)都在積極探索如何提高熱紅外人臉的識(shí)別精度。在Tufts Face人臉數(shù)據(jù)庫上,我們利用對(duì)偶生成模型進(jìn)行數(shù)據(jù)增廣(如圖3所示),將Rank-1精度提升了17%(DVG 54% - Baseline 37%)。
圖3. 三個(gè)異質(zhì)數(shù)據(jù)庫上的對(duì)偶生成結(jié)果(生成現(xiàn)實(shí)世界中不存在的配對(duì)人臉圖像)
3. 素描-照片(Sketch-Photo)
素描和照片識(shí)別廣泛應(yīng)用于刑事偵查,可以依據(jù)目擊證人的描述繪制出嫌疑人的素描圖,并用之協(xié)助鎖定罪犯。考慮到采集素描圖像費(fèi)時(shí)費(fèi)力,我們利用在CUFSF數(shù)據(jù)庫上預(yù)訓(xùn)練的對(duì)偶生成模型產(chǎn)生大量的虛擬圖片。在使用如圖3所示的虛擬圖片后,將VR@FAR=1%提升了16.82%(DVG 97.86% - Baseline 81.04%)。
4. 側(cè)臉-正臉(Profile-Frontal Photo)
現(xiàn)實(shí)場景中往往存在很多極端側(cè)臉圖像,由于這些圖像已經(jīng)丟失了大量有效信息,給識(shí)別系統(tǒng)帶來了巨大的挑戰(zhàn)。對(duì)偶生成模型通過生成大規(guī)模的配對(duì)側(cè)臉-正臉照片,減小類內(nèi)差異,提升識(shí)別系統(tǒng)的類內(nèi)魯棒性。在MultiPIE數(shù)據(jù)庫上的可視化結(jié)果如圖3的所示。利用生成的虛擬數(shù)據(jù),我們將正負(fù)90度人臉下的Rank-1精度提升了18.5%(DVG 83.9% - Baseline 65.4%)。
5. 身份證-相機(jī)照片(ID-Camera)
在安檢身份認(rèn)證系統(tǒng)中,利用證件照片確認(rèn)旅客身份是一種必要的手段。但由于證件上的照片分辨率較低,與現(xiàn)場相機(jī)采集的高分辨率照片之間存在較大差異。在NJU-ID 數(shù)據(jù)庫上,使用生成的虛擬數(shù)據(jù),我們將VR@FAR=1%提升了6.2%(DVG 96.7% - Baseline 90.5%)。
以上實(shí)驗(yàn)表明,對(duì)偶生成模型可以廣泛應(yīng)用于各類異質(zhì)人臉識(shí)別任務(wù)。我們將在今后的工作中繼續(xù)探索更多的應(yīng)用方向。
論文鏈接:
Dual Variational Generation for Low Shot Heterogeneous Face
Recognition. Chaoyou Fu, Xiang Wu, Yibo Hu, Huaibo Huang and Ran
He. https://arxiv.org/abs/1903.10203
來源:中國科學(xué)院自動(dòng)化研究所