前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇神經(jīng)網(wǎng)絡(luò)卷積層的作用范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò) 人體行為識(shí)別 Dropout
中圖分類(lèi)號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)04(c)-0028-02
該文采用隨機(jī)Dropout卷積神經(jīng)網(wǎng)絡(luò),筆者將此法的優(yōu)點(diǎn)大致概況為將繁瑣雜亂的前期圖像處理簡(jiǎn)易化,原來(lái)的圖像不可以直接輸入,現(xiàn)在的原始圖像即可實(shí)現(xiàn)直輸功能,因其特性得到廣泛研究與應(yīng)用。另外,卷積神經(jīng)網(wǎng)絡(luò)在圖像的處理中能夠?qū)⒅付ǖ淖藙?shì)、陽(yáng)光的照射反應(yīng)、遮避、平面移動(dòng)、縮小與放大等其他形式的扭曲達(dá)到魯棒性,從而達(dá)到良好的容錯(cuò)能力,進(jìn)而可以發(fā)現(xiàn)其在自適應(yīng)能力方面也非常強(qiáng)大。因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)在之前建立網(wǎng)絡(luò)模型時(shí),樣本庫(kù)為訓(xùn)練階段提供的樣本,數(shù)量有限,品質(zhì)上也很難滿(mǎn)足要求,致使網(wǎng)絡(luò)權(quán)值參數(shù)不能夠完成實(shí)時(shí)有效的調(diào)度與整理。
1 卷積神經(jīng)網(wǎng)絡(luò)
據(jù)調(diào)查卷積神經(jīng)網(wǎng)絡(luò)由K.Fukushima在80年代提出,那時(shí)候它被稱(chēng)為神經(jīng)認(rèn)知機(jī),這一認(rèn)知成為當(dāng)時(shí)的第一個(gè)網(wǎng)絡(luò),后來(lái)網(wǎng)絡(luò)算法發(fā)生了規(guī)模性變革,由LeCun為代表提出了第一個(gè)手寫(xiě)數(shù)字識(shí)別模型,并成功投入到商業(yè)用途中。LeNet被業(yè)界冠以卷積神經(jīng)網(wǎng)絡(luò)的代表模型,這類(lèi)系統(tǒng)在很多方面都起到了不容小趨的作用,它多數(shù)應(yīng)用于各類(lèi)不同的識(shí)別圖像及處理中,在這些層面上取得了重要成果。
筆者經(jīng)查閱資料發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)其實(shí)是由兩個(gè)種類(lèi)組合而來(lái),它們分別是特征提取、分類(lèi)器,這種組成我們可以看到特征提取類(lèi)可由一定數(shù)量的卷積層以及子采樣層相互重疊組合而成,全部都連接起來(lái)的1層或者2層神經(jīng)網(wǎng)絡(luò),就是由分類(lèi)器來(lái)進(jìn)行安排的。卷積神經(jīng)網(wǎng)絡(luò)中的局部區(qū)域得到的感覺(jué)、權(quán)值的參數(shù)及子采樣等可以說(shuō)是重要網(wǎng)絡(luò)結(jié)構(gòu)特征。
1.1 基本CNN網(wǎng)絡(luò)結(jié)構(gòu)
圖1中就是最為經(jīng)典的LeNet-5網(wǎng)絡(luò)模型結(jié)構(gòu)圖。通過(guò)圖1中我們可以獲悉,該模型有輸入輸出層,除這兩層外還有6層,其征提取可在前4層中體現(xiàn),后兩層體現(xiàn)的是分類(lèi)器。
在特征提取部分,6個(gè)卷積核通過(guò)卷積,是圖像經(jīng)尺寸為32×32的輸入而得見(jiàn)表1,運(yùn)算過(guò)程如式(1):
(1)
式中:卷積后的圖像與一個(gè)偏置組合起來(lái),使函數(shù)得到激活,因此特征圖變誕生了,通過(guò)輸出得到了6個(gè)尺寸的特征圖,這6個(gè)尺寸均為28×28,近而得到了第一層的卷積,以下筆者把它簡(jiǎn)要稱(chēng)為c1;那么c1層中的6個(gè)同尺寸圖再經(jīng)由下面的子采樣2×2尺寸,再演變成特征圖,數(shù)量還是6個(gè),尺寸卻變成了14×14,具體運(yùn)算如公式(2):
通過(guò)表2我們可以使xi生成的和與采樣系數(shù)0.25相乘,那么采樣層的生成也就是由加上了一個(gè)偏置,從而使函數(shù)被激活形成了采樣層的第1個(gè)層次,以下我們簡(jiǎn)要稱(chēng)為s1;這種過(guò)程我們可反復(fù)運(yùn)用,從而呈現(xiàn)出卷積層中的第2層,可以簡(jiǎn)要稱(chēng)之為c2,第2層簡(jiǎn)稱(chēng)s2;到目前為止,我們對(duì)特征的提取告一段落。
神經(jīng)網(wǎng)絡(luò)的識(shí)別,我們可以看到它是由激活函數(shù)而形成的一個(gè)狀態(tài),這一狀態(tài)是由每個(gè)單元的輸出而得;那么分類(lèi)器在這里起到的作用是將卷積層全部連接起來(lái),這種通過(guò)連接而使1層與上面1層所有特征圖進(jìn)行了串連,簡(jiǎn)要稱(chēng)之為c5;因而2層得到了退變與簡(jiǎn)化效應(yīng),從而使該神經(jīng)網(wǎng)絡(luò)成為經(jīng)典,簡(jiǎn)要稱(chēng)之為F6,向量及權(quán)值是由F6 輸送,然后由點(diǎn)積加上偏置得到結(jié)果的有效判定。
1.2 改進(jìn)的隨機(jī)DropoutCNN網(wǎng)絡(luò)
1.2.1 基本Dropout方法
神經(jīng)網(wǎng)絡(luò)泛化能力能夠得到提升,是基于Dropout方法的深入學(xué)習(xí)。固定關(guān)系中存在著節(jié)點(diǎn)的隱含,為使權(quán)值不再依附于這種關(guān)系,上述方法可隨機(jī)提取部分神經(jīng)元,這一特性是通過(guò)利用Dropout在網(wǎng)絡(luò)訓(xùn)練階段中隨機(jī)性而得,對(duì)于取值能夠有效的存儲(chǔ)及保護(hù)存留,這一特性在輸出設(shè)定方面一定要注重為0,這些被選擇的神經(jīng)元隨然這次被抽中應(yīng)用,但并不影響下次訓(xùn)練的過(guò)程,并具還可以恢復(fù)之前保留的取值,那么每?jī)蓚€(gè)神經(jīng)元同時(shí)產(chǎn)生作用的規(guī)避,可以通過(guò)重復(fù)下次隨機(jī)選擇部分神經(jīng)元的過(guò)程來(lái)解決;我們通過(guò)這種方法,使網(wǎng)絡(luò)結(jié)構(gòu)在每次訓(xùn)練階段中都能呈現(xiàn)不同變化,使一些受限制的特征,不再受到干擾,使其真正能展現(xiàn)自身的優(yōu)點(diǎn),在基于Dropout方法中,我們可以將一些神經(jīng)元的一半設(shè)為0來(lái)進(jìn)行輸出,隨機(jī)神經(jīng)元的百分比可控制在50%,有效的避免了特征的過(guò)度相似與穩(wěn)合。
1.2.2 隨機(jī)Dropout方法
Dropout方法就是隨機(jī)輸出為0的設(shè)定,它將一定比例神經(jīng)元作為決定的因素,其定義網(wǎng)絡(luò)在構(gòu)建模型時(shí)得到廣泛采用。神經(jīng)元基于隨機(jī)Dropout的方法是該文的重要網(wǎng)絡(luò)輸出途徑,通過(guò)設(shè)定輸出為0,使其在網(wǎng)絡(luò)中得到變。圖2是隨機(jī)Dropout的加入神經(jīng)元連接示意圖,其在圖中可知兩類(lèi)神經(jīng)元:一類(lèi)是分類(lèi)器的神經(jīng)元,這一階段的神經(jīng)元可分榱講悖渙硪煥嗌窬元是由輸出而形成的層次。模型在首次訓(xùn)練的階段會(huì)使神經(jīng)元隨機(jī)形成凍結(jié)狀態(tài),這一狀態(tài)所占的百分比為40%、60%,我們還可以看到30%及50%的神經(jīng)元可能在網(wǎng)絡(luò)隨機(jī)被凍結(jié),那么這次凍結(jié)可以發(fā)生在模型第二次訓(xùn)練,那么第三次神經(jīng)元的凍結(jié)可從圖示中得出70%及40%,還可以通過(guò)變化用人工設(shè)置,其范圍值宜為35%~65%,那么網(wǎng)絡(luò)神經(jīng)元連接次序的多樣化,也因此更為突出與精進(jìn),網(wǎng)絡(luò)模型的泛化能力也得到了跨越勢(shì)的提高。
2 實(shí)驗(yàn)及結(jié)果分析
2.1 實(shí)驗(yàn)方法
卷積神經(jīng)網(wǎng)絡(luò)通過(guò)實(shí)驗(yàn),通過(guò)輸入層呈現(xiàn)一灰色圖像,該圖像尺寸被設(shè)定成28×28的PNG格式,這里我們以圖像框架圖得到雙線(xiàn)性差值,用來(lái)處理圖像及原視頻中的影像,將框架圖的卷積核設(shè)定為5×5的尺寸,子采樣系數(shù)控制值為0.25,采用SGD迭代200次,樣本數(shù)量50個(gè)進(jìn)行設(shè)定,一次誤差反向傳播實(shí)現(xiàn)批量處理,進(jìn)行權(quán)值調(diào)整。實(shí)驗(yàn)采用交叉驗(yàn)證留一法,前四層為特征提取層,C1-S1-C2-S2按順序排列,6-6-12-12個(gè)數(shù)是相應(yīng)特征,通過(guò)下階段加入隨機(jī)Dropout,這階段為雙層也就是兩層,進(jìn)行連接,連接層為全體,從而可知結(jié)果由分類(lèi)得出,又從輸出層輸出。
2.2 實(shí)驗(yàn)結(jié)果分析
識(shí)別錯(cuò)誤率可通過(guò)卷積神經(jīng)網(wǎng)絡(luò)模型,及訓(xùn)練過(guò)程與檢測(cè)過(guò)程中可查看到的。在訓(xùn)練階段中,我們可以將Dropout的網(wǎng)絡(luò)中融入200次訓(xùn)練,在將沒(méi)有使用該方法的網(wǎng)絡(luò)進(jìn)行相互比較分析,我可以得知,后者訓(xùn)練時(shí)的識(shí)別錯(cuò)誤率稍高于前者,前者與后的相比較所得的差異不是很大,進(jìn)而我們可知使用Dropout方法,對(duì)卷積神經(jīng)網(wǎng)絡(luò)在泛化能力上得到有效的提升,從而有效的防止擬合。
3 結(jié)語(yǔ)
筆者基于Dropout卷積神經(jīng)網(wǎng)絡(luò),人體行為識(shí)別在視頻中進(jìn)行, 通過(guò)Weizmann數(shù)據(jù)集檢測(cè)實(shí)驗(yàn)結(jié)果,隨機(jī)Dropout在分類(lèi)器中加入。通過(guò)實(shí)驗(yàn)可以得知:隨機(jī)Dropout的加入,使卷積神經(jīng)構(gòu)建了完美網(wǎng)絡(luò)模型,并且使其在人體行為識(shí)別中的效率贏得了大幅度的提升,近而使泛化能力可以通過(guò)此類(lèi)方法得到提高,可以防止擬合。
參考文獻(xiàn)
[1] 其它計(jì)算機(jī)理論與技術(shù)[J].電子科技文摘,2002(6).
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);自動(dòng)編碼器;非監(jiān)督訓(xùn)練;多尺度分塊;目標(biāo)識(shí)別
中圖分類(lèi)號(hào):TP391.41文獻(xiàn)標(biāo)志碼:A英文標(biāo)題
0引言
對(duì)圖像中目標(biāo)的精確和魯棒識(shí)別是模式識(shí)別及人工智能領(lǐng)域的核心內(nèi)容,在道路監(jiān)控、戰(zhàn)場(chǎng)偵察、精確打擊等領(lǐng)域中有著重要的作用和廣泛的前景。近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)成為機(jī)器學(xué)習(xí)新的熱點(diǎn),基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的圖像識(shí)別算法因其較強(qiáng)的魯棒性和突出的識(shí)別率被學(xué)術(shù)界和工業(yè)界所重視。
Alex等[1]提出基于大型深層CNN的自然圖像識(shí)別算法,在ImageNet數(shù)據(jù)集上取得了很高的識(shí)別率;Dan等[2]提出了基于多核的CNN,并采用GPU并行運(yùn)算的方法在三維NORB數(shù)據(jù)集上取得了很好的識(shí)別效果。以上算法雖然都取得了較高的目標(biāo)識(shí)別率,但是由于算法采用有監(jiān)督的訓(xùn)練方式,需要大量標(biāo)簽數(shù)據(jù)對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行調(diào)整,當(dāng)數(shù)據(jù)量較小時(shí)會(huì)導(dǎo)致模型前幾層網(wǎng)絡(luò)無(wú)法得到充分訓(xùn)練,故只能針對(duì)含標(biāo)簽數(shù)據(jù)較多的大型數(shù)據(jù)集。針對(duì)此問(wèn)題,目前主流的解決方法是采用特征提取算法對(duì)CNN的濾波器集進(jìn)行非監(jiān)督的預(yù)訓(xùn)練。文獻(xiàn)[3]采用稀疏編碼提取訓(xùn)練圖像的基函數(shù)作為CNN的初始濾波器;文獻(xiàn)[4]將獨(dú)立成分分析(Independent Component Analysis,ICA)應(yīng)用于CNN的預(yù)訓(xùn)練階段,利用ICA訓(xùn)練濾波器集合,使識(shí)別率得到了一定提高。然而無(wú)論是稀疏編碼還是ICA,其特征提取的效果都比較一般,應(yīng)用于預(yù)訓(xùn)練階段對(duì)算法識(shí)別率的提升也比較有限。所以如何更好地選擇濾波器的預(yù)訓(xùn)練算法仍是十分困難的問(wèn)題。
除了預(yù)訓(xùn)練外,影響CNN識(shí)別率和魯棒性的關(guān)鍵參數(shù)還有濾波器的尺寸和下采樣層的采樣間隔。濾波器尺寸反映了CNN對(duì)輸入圖像局部特征的提取情況,文獻(xiàn)[5]證明濾波器尺寸對(duì)最終識(shí)別結(jié)果有很大影響,并給出了單層條件下相對(duì)最優(yōu)的濾波器尺寸。下采樣層主要負(fù)責(zé)對(duì)特征進(jìn)行模糊,從而獲得平移、尺度等不變性。采樣間隔反映了模糊的程度,間隔越大模糊越嚴(yán)重,模糊后的特征保持的全局空間信息就越少。文獻(xiàn)[6]證明當(dāng)采樣間隔較小時(shí),即使經(jīng)過(guò)2次卷積和2次最大下采樣(maxpooling),網(wǎng)絡(luò)輸出的激活值仍能重構(gòu)出與原始輸入看似相同的圖案。然而下采樣間隔過(guò)小會(huì)導(dǎo)致不變性喪失,過(guò)大則會(huì)損失大量細(xì)節(jié)信息,兩者均會(huì)導(dǎo)致識(shí)別率的下降。
針對(duì)以上問(wèn)題,本文提出基于多尺度分塊卷積神經(jīng)網(wǎng)絡(luò)(MultiScale Convolutional Neural Network, MSCNN)的圖像目標(biāo)識(shí)別算法。首先利用稀疏自動(dòng)編碼器(Sparse AutoEncoder,SAE)對(duì)卷積神經(jīng)網(wǎng)絡(luò)的濾波器進(jìn)行非監(jiān)督預(yù)訓(xùn)練,通過(guò)最小化重構(gòu)誤差獲得待識(shí)別圖像的隱層表示,進(jìn)而學(xué)習(xí)得到含有訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)特性的濾波器集合,預(yù)訓(xùn)練效果相比ICA更好。其次提出多尺度分塊的方法構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),為了增加魯棒性并減小下采樣對(duì)特征表示的影響,對(duì)輸入圖像進(jìn)行多尺度分塊形成多個(gè)通路,并設(shè)計(jì)相應(yīng)尺寸的濾波器進(jìn)行卷積運(yùn)算,將不同通路下采樣后的輸出進(jìn)行融合從而形成新的特征,輸入softmax分類(lèi)器完成圖像目標(biāo)的識(shí)別。最后通過(guò)大量實(shí)驗(yàn)對(duì)比MSCNN算法與經(jīng)典算法在通用圖像識(shí)別任務(wù)中的識(shí)別率和魯棒性差異,從而驗(yàn)證算法的有效性。
4仿真實(shí)驗(yàn)及分析
本文使用STL10公開(kāi)數(shù)據(jù)集以及從全色波段的QuiekBird遙感衛(wèi)星和GoogleEarth軟件中截取的遙感飛機(jī)圖像數(shù)據(jù)集進(jìn)行測(cè)試實(shí)驗(yàn),將所有圖片變?yōu)?4×64像素的RGB圖。選擇STL10數(shù)據(jù)集的原因是因?yàn)槠浜胁话瑯?biāo)簽的訓(xùn)練集,可用于本文的非監(jiān)督預(yù)訓(xùn)練算法,且圖像中包含更多類(lèi)內(nèi)變化。STL10共10類(lèi)目標(biāo),本文選用其中的4類(lèi)目標(biāo)進(jìn)行實(shí)驗(yàn)。選擇遙感飛機(jī)圖像數(shù)據(jù)則是為了驗(yàn)證本文算法在遙感圖像解譯方面的可用性。該數(shù)據(jù)集包含5類(lèi)遙感飛機(jī),共400幅。實(shí)驗(yàn)時(shí)隨機(jī)選取遙感飛機(jī)圖像庫(kù)中50%的圖像作為訓(xùn)練樣本,其余作為測(cè)試樣本。本文的實(shí)驗(yàn)環(huán)境為CPU2.8GHz、內(nèi)存3GB的計(jì)算機(jī),實(shí)現(xiàn)算法的軟件為Matlab(2011a)。
4.1算法識(shí)別率對(duì)比測(cè)試
MSCNN的各通路尺寸參數(shù)設(shè)置如圖4所示,每個(gè)通道使用300個(gè)濾波器,濾波器初始值按照不同通道感受野大小利用稀疏自動(dòng)編碼器預(yù)訓(xùn)練得到。編碼器設(shè)定為3層,稀疏參數(shù)ρ設(shè)定為0.05,訓(xùn)練周期為400。卷積神經(jīng)網(wǎng)絡(luò)的下采樣方式采用最大下采樣(max pooling)。
按照上述參數(shù)設(shè)置,通路1輸出特征維度為2700,通路2輸出特征維度為4800,通路3輸出特征維度為4800,MSCNN輸出特征維度總共為12300。所有算法的訓(xùn)練周期均為50。傳統(tǒng)CNN參數(shù)設(shè)定與通路1參數(shù)設(shè)定相同,同樣使用300個(gè)濾波器,濾波器初始值通過(guò)隨機(jī)初始化得到。輸出特征維度為2700。實(shí)驗(yàn)結(jié)果如表1所示。
從表1可看出,加入LCN的CNN較未加入的CNN對(duì)兩種數(shù)據(jù)集的識(shí)別率有一定的提高,說(shuō)明了加入LCN對(duì)目標(biāo)識(shí)別率是有一定的貢獻(xiàn)的;在兩種數(shù)據(jù)集上MSCNN相比原始CNN都擁有更高的識(shí)別率。MSCNN通路1雖然參數(shù)設(shè)置與CNN相同,但在相同訓(xùn)練周期下識(shí)別率較加入LCN的CNN又有一定提高,說(shuō)明了非監(jiān)督預(yù)訓(xùn)練對(duì)識(shí)別率提高的有效性。對(duì)于STL10數(shù)據(jù)集,可看出通路2的識(shí)別率在3個(gè)通路中最高,通路3則最低,這是因?yàn)橥?輸入的圖像尺寸最小,而STL10類(lèi)內(nèi)變化很大且目標(biāo)不全在圖像中心,故識(shí)別率有所下降。通路之間進(jìn)行兩兩累加后識(shí)別率都有所提高,在3個(gè)通路共同作用時(shí)識(shí)別率最高,達(dá)到83.5%。對(duì)于遙感飛機(jī)圖像集而言,可看出3個(gè)通路中通路2的識(shí)別率最高,這是因?yàn)檫b感飛機(jī)圖像集均為飛機(jī)圖像,不同類(lèi)別之間的全局特征差異并不明顯,而局部特征更能表示不同的飛機(jī)類(lèi)別。通路3由于輸入尺寸較小,識(shí)別率稍有下降。同樣的,不同通路之間的疊加都讓識(shí)別率有所提升,最終MSCNN三通路特征融合后的識(shí)別率達(dá)到了96.5%,完全滿(mǎn)足對(duì)于可見(jiàn)光遙感圖像目標(biāo)識(shí)別的需求。
從表1還可看出,本文算法在3個(gè)通路CNN的情況下的識(shí)別率較1個(gè)通路或2個(gè)通路的CNN的識(shí)別率高,由此可以推斷3個(gè)通路CNN所提取的特征具有較強(qiáng)的泛化能力和魯棒性。此外3個(gè)通道能夠兼顧不同的尺度,使模型能提取到尺度不同的特征。
4.2算法魯棒性實(shí)驗(yàn)
為驗(yàn)證MSCNN的魯棒性,在數(shù)據(jù)集中選取不同類(lèi)別的圖像對(duì)其進(jìn)行平移、尺度、旋轉(zhuǎn)變換,然后計(jì)算MSCNN輸出的第一層全連接特征與圖像變換后輸出特征之間的歐氏距離,根據(jù)距離的大小可以衡量輸出特征對(duì)于目標(biāo)變化的魯棒性,歐氏距離越小就說(shuō)明特征對(duì)于目標(biāo)變化越不敏感,魯棒性就越好。對(duì)于STL10選取四類(lèi)目標(biāo)進(jìn)行實(shí)驗(yàn),對(duì)比算法為CNN;對(duì)于遙感飛機(jī)圖像集隨機(jī)選取10幅進(jìn)行實(shí)驗(yàn),并取距離的平均值,對(duì)比算法為ICA和CNN。測(cè)試結(jié)果如圖6~7所示。
圖6中虛線(xiàn)表示傳統(tǒng)CNN算法得到的結(jié)果,實(shí)線(xiàn)則表示MSCNN得到的結(jié)果,從圖6可看出:無(wú)論是面對(duì)平移、尺度還是旋轉(zhuǎn)變換,MSCNN算法最終輸出的特征向量變化率均小于CNN算法,證明其魯棒性要好于CNN。
從圖7也可看出:本文算法對(duì)于遙感飛機(jī)圖像集的平移、尺度、旋轉(zhuǎn)均表現(xiàn)出良好的魯棒性,相比而言ICA提取的特征魯棒性較差,目標(biāo)圖像微小的變化就導(dǎo)致了特征較大的改變。本文算法魯棒性較好首先是因?yàn)镸SCNN采用非監(jiān)督的預(yù)訓(xùn)練方式,訓(xùn)練得到的濾波器含有更多圖像不變性特征;其次是因?yàn)镸SCNN采用多尺度輸入,小塊圖像輸入在一定程度上相當(dāng)于另一種局部特征,這些特征相比全尺寸輸入擁有更好的不變性;最后是MSCNN采用了局部對(duì)比度標(biāo)準(zhǔn)化,對(duì)于亮度變化較大和存在噪聲的目標(biāo)圖像魯棒性明顯增強(qiáng)。
另外,本文算法采用了多通路多尺度分塊的方法,必然會(huì)使網(wǎng)絡(luò)參數(shù)增加,從而會(huì)使訓(xùn)練時(shí)間比較耗時(shí);但在測(cè)試階段,輸入樣本的計(jì)算僅包含一些簡(jiǎn)單的卷積和下采樣,算法復(fù)雜度并沒(méi)有因?yàn)橥ǖ赖脑黾佣黾樱虼嗽跍y(cè)試階段的實(shí)時(shí)性較傳統(tǒng)的CNN并沒(méi)有太大變化。
5結(jié)語(yǔ)
本文提出了MSCNN算法在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過(guò)非監(jiān)督預(yù)訓(xùn)練濾波器的方法解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)前幾層無(wú)法得到有效訓(xùn)練的問(wèn)題。針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對(duì)于復(fù)雜背景圖像識(shí)別率不高的問(wèn)題,利用多尺度輸入圖像增加局部不變信息,利用不同尺寸濾波器卷積搭配不同下采樣間隔的方法在獲得特征不變性的同時(shí)不至于喪失目標(biāo)的細(xì)節(jié)信息,有效提升了識(shí)別率和魯棒性。與經(jīng)典算法的對(duì)比實(shí)驗(yàn)結(jié)果表明:該方法能夠有效識(shí)別可見(jiàn)光自然圖像和遙感圖像,并對(duì)平移、尺度和旋轉(zhuǎn)變換具有較強(qiáng)的魯棒性。
參考文獻(xiàn):
[1]
ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.
[2]
DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.
[3]
KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.
[4]
KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.
[5]
COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.
[6]
ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[7]
BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.
[8]
HAYKIN S.神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)[M].3版.申富饒, 徐燁, 鄭俊, 譯. 北京: 機(jī)械工業(yè)出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.
[10]
LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11]
DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.
[12]
GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.
[13]
JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[14]
BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.
Background
This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).
ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.
關(guān)鍵詞:人臉識(shí)別技術(shù);病毒管控;人工智能;神經(jīng)網(wǎng)絡(luò)
互聯(lián)網(wǎng)在今天的社會(huì)中發(fā)揮著舉足輕重的作用。如今社會(huì),隨著許多人工智能技術(shù)、網(wǎng)絡(luò)技術(shù)、云計(jì)算等互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,像人臉識(shí)別等技術(shù)的應(yīng)用越來(lái)越廣泛,在控制病毒傳播途徑等場(chǎng)合發(fā)揮了巨大作用,不斷地提高著社會(huì)的安全性和便利性,不僅提高了防控中病毒檢測(cè)效率,也為病毒的控制提供了可靠的技術(shù)方法,能夠及時(shí)發(fā)現(xiàn)和控制公共場(chǎng)所的安全隱患因素,避免對(duì)社會(huì)經(jīng)濟(jì)、居民生活造成破壞,。但目前的人臉識(shí)別等技術(shù)還存在許多缺陷,需要完善和革新,充滿(mǎn)著巨大的潛力和進(jìn)步空間。
1人臉識(shí)別技術(shù)研究意義
人臉識(shí)別技術(shù)是一種生物特征識(shí)別技術(shù),最早產(chǎn)生于上世紀(jì)60年代,基于生理學(xué)、圖像處理、人機(jī)交互及認(rèn)知學(xué)等方面的一種識(shí)別技術(shù)。相比于其他人類(lèi)特征像指紋識(shí)別、聲紋識(shí)別、虹膜識(shí)別等技術(shù),人臉識(shí)別雖然存在人臉識(shí)別單一性低,且區(qū)分度難度高、易受環(huán)境影響等不足。但是人臉識(shí)別技術(shù)擁有速度快、大范圍群體識(shí)別及非接觸、遠(yuǎn)距離可識(shí)別等優(yōu)勢(shì),都是其他生物識(shí)別識(shí)別技術(shù)所不具備的,而在傳播性強(qiáng)、感染風(fēng)險(xiǎn)大的病毒傳播過(guò)程中,這些顯然是必須要考慮的重要影響因素。通過(guò)將人臉識(shí)別等人工智能技術(shù)引入信息管理系統(tǒng),綜合集成視頻監(jiān)控、圖像處理、深度學(xué)習(xí)和大數(shù)據(jù)等技術(shù),結(jié)合非接觸測(cè)溫、定位等技術(shù),助力病情防控,在一定程度上推動(dòng)病毒病情防控信息化、智能化發(fā)展進(jìn)程??勺鳛榧訌?qiáng)公共場(chǎng)所的人員的體溫實(shí)時(shí)監(jiān)測(cè)、地址信息定位的監(jiān)控管理,規(guī)范公共場(chǎng)所針對(duì)病毒傳播的預(yù)防行為。
2人臉識(shí)別技術(shù)
2.1人臉檢測(cè)技術(shù)
人臉檢測(cè)是自動(dòng)人臉識(shí)別系統(tǒng)中的一個(gè)關(guān)鍵環(huán)節(jié)。早期的人臉識(shí)別研究主要針對(duì)具有較強(qiáng)約束條件的人臉圖象(如無(wú)背景的圖象),往往假設(shè)人臉位置靜止或者容易獲取。人臉檢測(cè)分為前深度學(xué)習(xí)時(shí)期,AdaBoost框架時(shí)期以及深度學(xué)習(xí)時(shí)期。前深度學(xué)習(xí)時(shí)期,人們將傳統(tǒng)的計(jì)算機(jī)視覺(jué)算法運(yùn)用于人臉檢測(cè),使用了模板匹配技術(shù),依賴(lài)于人工提取特征,然后用這些人工特征訓(xùn)練一個(gè)檢測(cè)器;后來(lái)技術(shù)發(fā)展,在2001年Viola和Jones設(shè)計(jì)了一種人臉檢測(cè)算法,它使用簡(jiǎn)單的Haar-like特征和級(jí)聯(lián)的AdaBoost分類(lèi)器構(gòu)造檢測(cè)器,檢測(cè)速度較之前的方法有2個(gè)數(shù)量級(jí)的提高,并且保持了很好的精度,稱(chēng)這種方法為VJ框架。VJ框架是人臉檢測(cè)歷史上第一個(gè)最具有里程碑意義的一個(gè)成果,奠定了基于AdaBoost目標(biāo)檢測(cè)框架的基礎(chǔ),使用級(jí)聯(lián)AdaBoost分類(lèi)器進(jìn)行目標(biāo)檢測(cè)的思想是:用多個(gè)AdaBoost分類(lèi)器合作實(shí)現(xiàn)對(duì)候選框的分類(lèi),這些分類(lèi)器組成一個(gè)流水線(xiàn),對(duì)滑動(dòng)窗口中的候選框圖像進(jìn)行判定,確定檢測(cè)目標(biāo)是人臉還是非人臉。Adaboost框架技術(shù)的精髓在于用簡(jiǎn)單的強(qiáng)分類(lèi)器在初期快速排除掉大量的非人臉窗口,同時(shí)保證高的召回率,使得最終能通過(guò)所有級(jí)強(qiáng)分類(lèi)器的樣本數(shù)數(shù)量較少。在深度學(xué)習(xí)時(shí)期,開(kāi)始將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于人臉檢測(cè)領(lǐng)域。研究方向有兩種:一是將適用于多任務(wù)的目標(biāo)檢測(cè)網(wǎng)絡(luò)應(yīng)用于人臉檢測(cè)中;另一種是研究特定的的人臉檢測(cè)網(wǎng)絡(luò)。人臉檢測(cè)技術(shù)具有特殊唯一性和穩(wěn)定性,在現(xiàn)今社會(huì)對(duì)于構(gòu)建居民身份識(shí)別系統(tǒng),病毒傳播防控系統(tǒng),以及計(jì)算機(jī)視覺(jué)交互模型的構(gòu)建具有廣泛的應(yīng)用。人臉檢測(cè)技術(shù)不僅作為人臉識(shí)別的首要步驟,也在許多其他領(lǐng)域發(fā)揮巨大影響,如人臉關(guān)鍵點(diǎn)提取、人臉追蹤、基于內(nèi)容的檢索、數(shù)字視頻處理、視頻檢測(cè)、安防監(jiān)控、人證比對(duì)、社交等領(lǐng)域都有重要的應(yīng)用價(jià)值。數(shù)碼相機(jī)、手機(jī)等移動(dòng)端上的設(shè)備已經(jīng)大量使用人臉檢測(cè)技術(shù)實(shí)現(xiàn)成像時(shí)對(duì)人臉的對(duì)焦、圖集整理分類(lèi)等功能,各種虛擬美顏相機(jī)也需要人臉檢測(cè)技術(shù)定位人臉。評(píng)價(jià)一個(gè)人臉檢測(cè)算法好壞的指標(biāo)是檢測(cè)率和誤報(bào)率,我們定義檢測(cè)率為:算法要求在檢測(cè)率和誤報(bào)率之間盡量平衡,理想的情況是達(dá)到高檢測(cè)率,低誤報(bào)率。
2.2人臉識(shí)別技術(shù)
目前主要流行的人臉識(shí)別技術(shù)包括幾何特征識(shí)別,模型識(shí)別,特征臉識(shí)別和基于深度學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)的的人臉識(shí)別技術(shù)等。人臉特征識(shí)別主要通過(guò)對(duì)人臉面部結(jié)構(gòu)特征如眼睛、鼻子等五官幾何特點(diǎn)及其相對(duì)位置分布等,生成圖像,并計(jì)算各個(gè)面部特征之間的歐式距離、分布、大小等關(guān)系該方法比較簡(jiǎn)單,反應(yīng)速度快,并且具有魯棒性強(qiáng)等優(yōu)點(diǎn),但是在實(shí)際環(huán)境下使用容易受檢測(cè)的環(huán)境的變化、人臉部表情變化等影響,精度通常不高,細(xì)節(jié)處理上不夠完善。模型識(shí)別技術(shù)主要包括隱馬爾可夫模型、主動(dòng)表象模型、主動(dòng)形狀模型等,識(shí)別率較高,并且對(duì)表情等變化影響較小。特征臉識(shí)別來(lái)源于主成分描述人臉照片技術(shù)(PCA技術(shù)),從數(shù)學(xué)上來(lái)講,特征臉就是人臉的圖像集協(xié)方差矩陣的特征向量。該技術(shù)能有效的顯示人臉信息,效率較高?;谏疃葘W(xué)習(xí)的人臉識(shí)別是獲取人臉圖像特征,并將包含人臉信息的特征進(jìn)行線(xiàn)性組合等,提取人臉圖像的特征,學(xué)習(xí)人臉樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次??梢圆捎萌缛龑忧梆丅P神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)是1986年由Rumelhart和McClelland為首的科學(xué)家提出的概念,是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)本質(zhì)上是一種能夠?qū)W量的輸入與輸出之間的映射關(guān)系的輸入到輸出的映射,從結(jié)構(gòu)上講,BP網(wǎng)絡(luò)具有輸入層、隱藏層和輸出層;從本質(zhì)上講,BP算法就是以網(wǎng)絡(luò)誤差平方為目標(biāo)函數(shù)、采用梯度下降法來(lái)計(jì)算目標(biāo)函數(shù)的最小值。BP神經(jīng)網(wǎng)路輸入層有n個(gè)神經(jīng)元節(jié)點(diǎn),輸出層具有m個(gè)神經(jīng)元,隱含層具有k個(gè)神經(jīng)元,采用BP學(xué)習(xí)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)。BP算法主要包括兩個(gè)階段:向前傳播階段和向后傳播階段。在向前傳播階段,信息從輸入層經(jīng)過(guò)逐級(jí)的變換,傳送到輸出層。這個(gè)過(guò)程也是在網(wǎng)絡(luò)完成訓(xùn)練后正常運(yùn)行時(shí)執(zhí)行。將Xp作為輸入向量,Yp為期望輸出向量則BP神經(jīng)網(wǎng)絡(luò)向前傳播階段的運(yùn)算,得到實(shí)際輸出表達(dá)式為向后傳播階段主要包括兩大步驟:①計(jì)算實(shí)際輸出Op與對(duì)應(yīng)理想輸出Yp之差;②按極小化誤差方法調(diào)整帶權(quán)矩陣。之所以將此階段稱(chēng)為向后傳播階段,是對(duì)應(yīng)于輸入信號(hào)的正常傳播而言的,因?yàn)樵撾A段都需要收到精度要求進(jìn)行誤差處理,所以也可以稱(chēng)之為誤差傳播階段。(1)確定訓(xùn)練集。由訓(xùn)練策略選擇樣本圖像作為訓(xùn)練集。(2)規(guī)定各權(quán)值Vij,Wjk和閾值Φj,θk參數(shù),并初始化學(xué)習(xí)率α及精度控制參數(shù)ε。(3)從訓(xùn)練集中取輸入向量X到神經(jīng)網(wǎng)絡(luò),并確定其目標(biāo)輸出向量D。(4)利用上式計(jì)算出一個(gè)中間層輸出H,再用本式計(jì)算出網(wǎng)絡(luò)的實(shí)際輸出Y。(5)將輸出矢量中yk與目標(biāo)矢量中dk進(jìn)行比較,計(jì)算輸出誤差項(xiàng),對(duì)中間層的隱單元計(jì)算出L個(gè)誤差項(xiàng)。(6)最后計(jì)算出各權(quán)值和閾值的調(diào)整量。所以,卷積神經(jīng)網(wǎng)絡(luò)算法是通過(guò)訓(xùn)練人臉特征庫(kù)的方式進(jìn)行學(xué)習(xí)生成,對(duì)不同環(huán)境下不同表現(xiàn)情況的人臉圖像識(shí)別有更高的精確性。
2.3人臉識(shí)別軟件實(shí)現(xiàn)方式
(1)采集人臉數(shù)據(jù)集,然后對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理變成訓(xùn)練格式。(2)部署訓(xùn)練模型,根據(jù)訓(xùn)練算法所需依賴(lài)部署電腦環(huán)境。(3)訓(xùn)練過(guò)程,下載預(yù)訓(xùn)練模型,將人臉數(shù)據(jù)集分批次作為輸入開(kāi)始訓(xùn)練,最終輸出為訓(xùn)練好的模型。(4)部署訓(xùn)練好的模型,捕獲畫(huà)面即可對(duì)畫(huà)面中的人臉進(jìn)行實(shí)時(shí)檢測(cè)。
3人臉識(shí)別在病毒傳播防控中的應(yīng)用
通過(guò)人臉識(shí)別技術(shù),可以實(shí)現(xiàn)無(wú)接觸、高效率的對(duì)流動(dòng)人員進(jìn)行信息的收集、身份識(shí)別、定位地址信息等操作,大大減少了傳染的可能性,切斷了病毒傳播途徑,大大提高了工作效率。通過(guò)提前收錄人臉信息,采用深度學(xué)習(xí)對(duì)人臉特征模型的訓(xùn)練學(xué)習(xí),即可獲取人臉識(shí)別特征模型,再次驗(yàn)證時(shí)即可實(shí)現(xiàn)人臉識(shí)別和個(gè)人信息快速匹配。AI人工智能幫助人們更好的解放雙手,為人們的生活和工作提供了重要的幫助。本文還提出了在人臉識(shí)別的系統(tǒng)基礎(chǔ)上,可以加入定位系統(tǒng)、測(cè)溫系統(tǒng)等,依托物聯(lián)網(wǎng)技術(shù)和云計(jì)算大數(shù)據(jù),更加優(yōu)化管控系統(tǒng)的效率。病毒傳播防控中人臉識(shí)別系統(tǒng)流程可以概括為圖2。
4結(jié)語(yǔ)
本文研究了一種人臉識(shí)別技術(shù)在病毒傳播管控系統(tǒng)中的應(yīng)用,并分析設(shè)計(jì)了人臉識(shí)別實(shí)時(shí)監(jiān)測(cè)及病毒管控系統(tǒng)的流程,大大提高了信息管理的效率,減弱了傳播風(fēng)險(xiǎn)。作為一門(mén)新興技術(shù),目前的人臉識(shí)別技術(shù)還存在著諸多不足之處,像存在環(huán)境光的影響、人臉表情變化、妝容變化、佩戴口罩等都會(huì)影響到系統(tǒng)識(shí)別精度;另外安全問(wèn)題也引人深思:現(xiàn)今人臉支付方式迅猛發(fā)展,錄入的人臉模型信息數(shù)據(jù)庫(kù)存在有一定的安全風(fēng)險(xiǎn),一旦被不法分子盜取信息后果不堪設(shè)想,所以模型數(shù)據(jù)庫(kù)安全、網(wǎng)絡(luò)安全,也是系統(tǒng)開(kāi)發(fā)中必須重視的問(wèn)題。人臉識(shí)別為代表的人工智能技術(shù)的研究,在病毒傳播管控作出重大貢獻(xiàn),依托我國(guó)領(lǐng)先的計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和5G等技術(shù),加強(qiáng)人工智能技術(shù)與5G通信技術(shù)的結(jié)合,優(yōu)勢(shì)互補(bǔ),以此來(lái)加快大數(shù)據(jù)、人工智能和物聯(lián)網(wǎng)技術(shù)發(fā)展進(jìn)程,對(duì)我國(guó)社會(huì)進(jìn)步,促進(jìn)城市建設(shè)和管理朝著高效、秩序、和諧穩(wěn)定的方向不斷發(fā)展,增強(qiáng)我國(guó)的經(jīng)濟(jì)實(shí)力有著重大價(jià)值和研究意義。
參考文獻(xiàn)
[1]王彥秋,馮英偉.基于大數(shù)據(jù)的人臉識(shí)別方法[J].現(xiàn)代電子技術(shù),2021,44(7):87-90.
[2]李剛,高政.人臉自動(dòng)識(shí)別方法綜述[J].計(jì)算機(jī)應(yīng)用研究,2003,20(8):4-9,40.
[3]馬玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].計(jì)算機(jī)科學(xué)與探索,2021,7(15):1195-1206.
[4]余璀璨,李慧斌.基于深度學(xué)習(xí)的人臉識(shí)別方法綜述[J].工程數(shù)學(xué)學(xué)報(bào),2021,38.
[5]王紅星,胡永陽(yáng),鄧超.基于LBP和ELM的人臉識(shí)別算法研究與實(shí)現(xiàn)[J].河南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2005.
[6]鐘陳,王思翔,王文峰.面向疫情防控的人臉識(shí)別系統(tǒng)與標(biāo)準(zhǔn)研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2020,6,11-13,1671-539X.
[6]彭駿,吉綱,張艷紅,占濤.精準(zhǔn)人臉識(shí)別及測(cè)溫技術(shù)在疫情防控中的應(yīng)用[J].軟件導(dǎo)刊,2020,10,1672-7800.
關(guān)鍵詞:車(chē)牌識(shí)別系統(tǒng); 智能交通; 技術(shù)
中圖分類(lèi)號(hào): TP391.4文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)18-20ppp-0c
Research on Licence Plate Recognition System
YI Lian-jie
(Loudi Vocational and Technical College Loudi Huanan417000)
Abstract: The licence plate recognition system has an importantrole of morden intelligent traffic system. This paper narrated the key technology ofthe licence plate recognition system and discussed the existing problems and development of the licence plate recognition system.
Keywords: the licence plate recognition system; intelligent traffic system; technology
車(chē)牌識(shí)別系統(tǒng)是智能交通系統(tǒng)的關(guān)鍵部分,可廣泛應(yīng)用于交通管理、監(jiān)控和電子收費(fèi)等場(chǎng)合。車(chē)牌識(shí)別系統(tǒng)就是以車(chē)牌作為車(chē)輛的唯一標(biāo)識(shí),采用計(jì)算機(jī)視覺(jué)和模式識(shí)別技術(shù)對(duì)汽車(chē)車(chē)牌的自動(dòng)識(shí)別。
1 車(chē)牌識(shí)別系統(tǒng)的組成
典型的車(chē)牌識(shí)別系統(tǒng)由車(chē)輛檢測(cè)、圖像采集、車(chē)牌識(shí)別等部分組成(圖1)。車(chē)輛檢測(cè)就是使用車(chē)輛傳感器或紅外線(xiàn)檢測(cè)等來(lái)判斷車(chē)輛是否通過(guò)某一位置。當(dāng)車(chē)輛駛過(guò)探測(cè)部位時(shí),CCD攝像機(jī)拍攝車(chē)輛圖像,由圖像采集卡采集圖像并輸入計(jì)算機(jī)。車(chē)牌識(shí)別部分由計(jì)算機(jī)和識(shí)別軟件組成,從由CCD攝像機(jī)采集的圖像中自動(dòng)尋找車(chē)牌,然后對(duì)找到的車(chē)牌進(jìn)行字符切分和識(shí)別,最后獲得車(chē)牌號(hào)碼,并將識(shí)別結(jié)果送至監(jiān)控中心等場(chǎng)合。
圖1車(chē)牌識(shí)別系統(tǒng)的組成
在整個(gè)識(shí)別系統(tǒng)中,以車(chē)牌識(shí)別最為關(guān)鍵。識(shí)別過(guò)程有兩個(gè)步驟,首先從圖像中找出確切的車(chē)牌位置,即車(chē)牌定位,然后對(duì)找出的車(chē)牌進(jìn)行字符切分和識(shí)別。車(chē)牌識(shí)別過(guò)程包含兩大關(guān)鍵技術(shù):1.車(chē)牌區(qū)域定位技術(shù);2.車(chē)牌字符切分和識(shí)別技術(shù)。
2 車(chē)牌定位技術(shù)
圖像輸入計(jì)算機(jī)后,系統(tǒng)要自動(dòng)找出車(chē)牌的準(zhǔn)確位置。車(chē)牌區(qū)域定位是車(chē)牌字符切分和識(shí)別的基礎(chǔ),是提高系統(tǒng)識(shí)別率的關(guān)鍵。車(chē)牌定位過(guò)程包括三個(gè)步驟:圖像預(yù)處理、車(chē)牌搜索和車(chē)牌糾偏。
2.1 圖像預(yù)處理
圖像預(yù)處理的作用:平滑去噪和車(chē)牌特征增強(qiáng)。
平滑去噪就是消除圖像上由于光照、車(chē)牌污損等產(chǎn)生的噪聲干擾。平滑方法主要有平均濾波、中值濾波和指數(shù)函數(shù)濾波等方法。中值濾波和指數(shù)濾波平滑效果好且能較好保持牌照和字符邊緣,但在平滑效果和處理速度方面不如平均濾波。
通常的車(chē)牌定位算法是依據(jù)車(chē)牌特征從圖像中找出車(chē)牌,因此必須使車(chē)牌區(qū)域顯示出與非車(chē)牌區(qū)域不同的獨(dú)有的特征,車(chē)牌特征增強(qiáng)使圖像中車(chē)牌區(qū)域明顯突出。通常有下述增強(qiáng)方法:邊緣檢測(cè)法、二值化法、量化法、數(shù)學(xué)形態(tài)學(xué)法。
具有不同灰度的相鄰區(qū)域之間存在邊緣,在車(chē)牌區(qū)域存在車(chē)牌邊框邊緣和車(chē)牌字符邊緣。邊緣檢測(cè)法就是要檢測(cè)出這些邊緣。有關(guān)邊緣檢測(cè)的算法很多,考慮實(shí)時(shí)性要求,采用簡(jiǎn)單的微分算子,如一階微分算等。這些算子采用小區(qū)域模板與圖像卷積實(shí)現(xiàn)邊緣檢測(cè)。文獻(xiàn)[1]提出一種牌照字符邊緣特征增強(qiáng)的方法,該方法使用線(xiàn)性濾波器函數(shù)將每一行中多個(gè)連續(xù)的水平方向梯度值相加,使得字符的垂直邊緣增強(qiáng)。微分算子對(duì)噪聲較為敏感,因此在使用之前需要平滑去噪。LOG算子是高斯指數(shù)平滑法與Laplacian算子相結(jié)合的邊緣檢測(cè)方法,既能消除噪聲又能很好的突出車(chē)牌字符的邊緣。
二值化增強(qiáng)法先確定一個(gè)閾值,然后將圖像中各個(gè)像素的灰度值都與這個(gè)閾值比較,根據(jù)比較結(jié)果將整個(gè)圖像的像素點(diǎn)分為兩類(lèi),車(chē)牌區(qū)域歸為一類(lèi),便于車(chē)牌搜索。為了滿(mǎn)足實(shí)時(shí)性要求,采用簡(jiǎn)單、快速的二值化法,如平均閾值法,反積分自適應(yīng)閾值法等。
文獻(xiàn)[3]使用神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)彩色圖像量化,使得車(chē)牌區(qū)域的字符為一種特定的顏色,然后進(jìn)行顏色過(guò)濾或線(xiàn)掃描,借此提取車(chē)牌。該方法首先必須選取車(chē)牌樣本圖像,并且要把RGB顏色模式轉(zhuǎn)換為HSI模式,以HSI各分量值作為輸入對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,再以訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)圖像的各像素點(diǎn)量化分類(lèi),該方法抗干擾能力強(qiáng),量化前可不要求平滑,
數(shù)學(xué)形態(tài)學(xué)表示以形態(tài)為基礎(chǔ)對(duì)圖像進(jìn)行分析的數(shù)學(xué)工具,它的基本思想使用具有一定形態(tài)的結(jié)構(gòu)元素去量度和提取圖像中的對(duì)應(yīng)形狀以達(dá)到對(duì)圖像分析和識(shí)別的目的。數(shù)學(xué)形態(tài)學(xué)有四種基本的運(yùn)算:膨脹,腐蝕,開(kāi)啟和閉合。出于以下兩個(gè)意圖而使用形態(tài)學(xué)方法:1.將開(kāi)啟和閉合結(jié)合起來(lái),消除二值化后的車(chē)牌區(qū)域中存在的細(xì)小空洞;2.采用水平線(xiàn)段的結(jié)構(gòu)元素膨脹,使二值化后的車(chē)牌區(qū)域成為一連通區(qū)域。
需要說(shuō)明的是,上述方法往往不是單獨(dú)使用,如二值化法是對(duì)邊緣檢測(cè)后的圖像進(jìn)行,而形態(tài)學(xué)方法是在二值化圖上實(shí)現(xiàn)。不能簡(jiǎn)單的評(píng)價(jià)圖像預(yù)處理方法的優(yōu)劣,因?yàn)檫@與所對(duì)應(yīng)的車(chē)牌搜索方法緊密相關(guān)。
2.2 車(chē)牌搜索
車(chē)牌搜索就是根據(jù)車(chē)牌區(qū)域特征在圖像中尋找車(chē)牌的過(guò)程。根據(jù)搜索的方式可把車(chē)牌搜索方法分為以下幾種:投影統(tǒng)計(jì)法、線(xiàn)掃描法、模板匹配法和反Hough變換法等。車(chē)牌搜索法要與相應(yīng)的車(chē)牌增強(qiáng)法配合使用(見(jiàn)表2)。
表2車(chē)牌增強(qiáng)法用于不同搜索法的情況
投影統(tǒng)計(jì)法對(duì)邊緣化或二值化圖像進(jìn)行水平和垂直累加投影,根據(jù)投影直方圖呈現(xiàn)的連續(xù)峰、谷、峰的分布的特征來(lái)提取車(chē)牌,或?qū)τ尚螒B(tài)學(xué)膨脹運(yùn)算后的圖像水平和垂直投影,在投影圖上尋找波峰和波谷而確定車(chē)牌位置。文獻(xiàn)[24]提出的采用高斯指數(shù)函數(shù)對(duì)投影圖平滑,能有效消除投影圖的毛刺,使車(chē)牌位置為明顯的波峰,提高車(chē)牌定位的精度。
線(xiàn)掃描搜索法則是對(duì)邊緣化或二值化后的圖像逐行水平掃描,穿過(guò)車(chē)牌區(qū)域的掃描線(xiàn)因?yàn)樽址吘壍拇嬖?,灰度呈現(xiàn)起伏的峰、谷、峰的變化,或頻繁交替出現(xiàn)亮基元、暗基元的特征,以提取車(chē)牌。文獻(xiàn)[3]用神經(jīng)網(wǎng)絡(luò)對(duì)彩色圖像量化之后,再逐行水平掃描,分別獲取顏色向量和長(zhǎng)度向量,能與標(biāo)準(zhǔn)車(chē)牌區(qū)域的顏色向量和長(zhǎng)度向量匹配的為車(chē)牌區(qū)域。
模板匹配搜索法是以特定的模板在圖像區(qū)域滑動(dòng),以與模板匹配的局部區(qū)域?yàn)檐?chē)牌。使用的模板有線(xiàn)模板、倒”L”角模板、矩形框模板。線(xiàn)模板以水平線(xiàn)段或垂直線(xiàn)段為模板,來(lái)檢測(cè)車(chē)牌的邊框角點(diǎn);倒“L”模板以倒“L”結(jié)構(gòu)為模板來(lái)尋找車(chē)牌邊框的左上角;矩形框模板以一個(gè)與車(chē)牌長(zhǎng)寬比例相當(dāng)?shù)木匦慰蜃鳛槟0澹谡麄€(gè)圖像區(qū)域滑動(dòng),以符合某一判別函數(shù)值的區(qū)域作為車(chē)牌區(qū)域。
反Hough變換搜索法是基于車(chē)牌形狀特征的方法,先對(duì)圖像進(jìn)行Hough變換,然后在Hough參數(shù)空間尋找車(chē)牌的四個(gè)端點(diǎn)。
上述搜索法可以結(jié)合使用,如文獻(xiàn)[25]提出的自適應(yīng)邊界搜索法,先用倒”L”模板尋找車(chē)牌邊框的左上角,然后用水平線(xiàn)掃描和垂直線(xiàn)掃描找出下邊框和右邊框。投影統(tǒng)計(jì)搜索法和線(xiàn)掃描搜索法處理速度快,能對(duì)大小不同的車(chē)牌識(shí)別,但定位精度不高和出現(xiàn)虛假車(chē)牌的情況,需要提高定位精度和去除虛假車(chē)牌的后續(xù)工作。模板匹配搜索法能比較準(zhǔn)確的找到車(chē)牌位置,但難以滿(mǎn)足實(shí)時(shí)性要求,可以采用神經(jīng)網(wǎng)絡(luò)或遺傳算法來(lái)加快搜索進(jìn)程。反Hough變換搜索法除了能準(zhǔn)確找到車(chē)牌位置,還能確定車(chē)牌的傾斜角度,對(duì)噪聲、輪廓線(xiàn)中斷不敏感,但在有直線(xiàn)干擾下可能實(shí)效,文獻(xiàn)[28]提出的快速Hough變換的策略能滿(mǎn)足實(shí)時(shí)性要求。
2.3 車(chē)牌糾偏
由于車(chē)輛運(yùn)行軌跡不定、攝像機(jī)位置偏斜等原因,使得圖像中車(chē)牌扭曲,為了后續(xù)正確的車(chē)牌字符切分和識(shí)別,就須對(duì)車(chē)牌糾偏,使車(chē)牌達(dá)到規(guī)范的位置和大小。采用的糾偏方法通常先是用Hough變換確定水平邊框傾斜角度和垂直邊框傾斜角度,然后糾偏。文獻(xiàn)[22]提出使用Rodan 變換可用來(lái)確定傾斜角度。
3 車(chē)牌字符識(shí)別技術(shù)
車(chē)牌定位之后就要對(duì)車(chē)牌字符識(shí)別。這一過(guò)程包含下列幾個(gè)步驟(見(jiàn)圖2):車(chē)牌二值化,字符切分,字符特征提取和字符識(shí)別。這里只討論后三個(gè)步驟。
圖2 車(chē)牌字符識(shí)別步驟
3.1 字符切分
字符切分把車(chē)牌上的字符分開(kāi),得到一個(gè)個(gè)的字符圖像。常用的字符切分方法有投影法、模板匹配法、區(qū)域生長(zhǎng)法、聚類(lèi)分析法等。
投影法把車(chē)牌圖像垂直累加投影,形成峰谷交替的投影直方圖,找到投影圖的各個(gè)谷就能把字符分開(kāi)。模板匹配法以字符大小的矩形作為模板,根據(jù)字符的寬度初步確定每個(gè)字符的起始位置,然后以此模板在初定位置附近滑動(dòng),找到最佳匹配位置而切分字符。區(qū)域生長(zhǎng)法對(duì)每個(gè)需要分割的字符找一個(gè)像素作為生長(zhǎng)起點(diǎn)的種子,將種子像素周?chē)徲蛑信c之相同或相近性質(zhì)的像素合并到種子像素所在的區(qū)域,然后將這些新像素當(dāng)作新的種子繼續(xù)進(jìn)行上述過(guò)程,直到再?zèng)]有滿(mǎn)足條件的像素可被包含進(jìn)來(lái)?;诰垲?lèi)分析的方法對(duì)車(chē)牌圖像從上到下逐行掃描,如屬于字符類(lèi)的兩像素間距離小于閾值,可認(rèn)為兩像素為同一字符,由此而得字符像素的聚類(lèi)。
3.2 字符特征提取和車(chē)牌字符識(shí)別
目前使用的車(chē)牌字符特征提取的方法可歸納為下述三種:1.基于字符統(tǒng)計(jì)特征。計(jì)算字符圖像的多階原點(diǎn)矩,多階中心矩以及中心慣性矩,以中心矩與中心慣性矩的比值作為字符特征向量,這樣提取的特征量具有平移,旋轉(zhuǎn)和尺度不變性,但運(yùn)算量大;也有把字符在多個(gè)方向上的投影(如水平方向,垂直方向,右斜方向,左斜方向)和二階中心矩的比值作為特征向量。2.基于結(jié)構(gòu)特征。輪廓特征,粗網(wǎng)格特征,層次輪廓特征以及字符特征點(diǎn).這類(lèi)特征提取計(jì)算量較少,但對(duì)噪聲和位置變化比較敏感,需要去噪和對(duì)字符歸一化。3.基于變換。對(duì)原始特征(像素點(diǎn)矩陣)進(jìn)行傅里葉變換、K-L變換或小波變換等,提取的特征向量反映字符的結(jié)構(gòu)特征和統(tǒng)計(jì)特征,相似字符的特征矢量距離較大,效果較好。實(shí)際應(yīng)用中往往是多種特征的提取,多種特征提取方法的使用。
對(duì)車(chē)牌字符特征提取之后,就把相應(yīng)的特征值輸入分類(lèi)器識(shí)別,目前對(duì)于車(chē)牌字符的分類(lèi)識(shí)別方法歸納為下列幾種。(1)模板匹配。該方法首先對(duì)待識(shí)字符進(jìn)行二值化并將其縮放為字符數(shù)據(jù)庫(kù)中模板大小,然后與所有的字符模板比較匹配,計(jì)算相似度,以最大相似度者為識(shí)別結(jié)果。(2)PCA子空間分類(lèi)器。子空間分類(lèi)器由訓(xùn)練樣本相關(guān)矩陣的特征向量構(gòu)成,單個(gè)模式的子空間建立彼此獨(dú)立,相互之間沒(méi)有聯(lián)系,以待識(shí)別字符的特征向量與所對(duì)應(yīng)的子空間距離最小作為結(jié)果。(3)基于人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)有抗噪聲、容錯(cuò)、自適應(yīng)、自學(xué)習(xí)能力強(qiáng)的特點(diǎn)。多隱含層的BP神經(jīng)網(wǎng)絡(luò),BAM(Bidirectional association memories)神經(jīng)網(wǎng)絡(luò)方法,自諧振ART神經(jīng)網(wǎng)絡(luò)識(shí)別等是此方法的典范。(4)基于邏輯規(guī)則推理的識(shí)別方法。文獻(xiàn)[18]提出基于歸納推理的字符識(shí)別,該方法在訓(xùn)練時(shí)自動(dòng)生成識(shí)別規(guī)則。(5)基于隨機(jī)場(chǎng)圖像模擬的識(shí)別方法。該方法識(shí)別率高,并且可對(duì)灰度圖像直接提取字符特征,抗干擾性強(qiáng)。另外使用感知器的識(shí)別,通常感知器只用于相似字符對(duì)的識(shí)別,作為其他識(shí)別方法的補(bǔ)充。
4 總結(jié)與展望
從已有車(chē)牌識(shí)別系統(tǒng)的性能分析來(lái)看,正確識(shí)別率和識(shí)別速度兩者難以同時(shí)兼顧。其中原因包括目前的車(chē)牌識(shí)別技術(shù)還不夠成熟,又受到攝像設(shè)備、計(jì)算機(jī)性能的影響。
現(xiàn)代交通飛速發(fā)展,LPR系統(tǒng)的應(yīng)用范圍不斷擴(kuò)寬,對(duì)車(chē)牌識(shí)別系統(tǒng)的性能要求將更高。對(duì)現(xiàn)有的算法優(yōu)化或?qū)ふ易R(shí)別精度高、處理速度快、應(yīng)用于多種場(chǎng)合的算法將是研究的主要任務(wù)。
參考文獻(xiàn):
[1] 廖金周,宣國(guó)榮.車(chē)輛牌照的自動(dòng)分割[J].微型電腦應(yīng)用,1999(7):32-34.
[2] 劉智勇.車(chē)牌識(shí)別中的圖像提取及分割[J].中文信息文報(bào),2000(3):29-34.
[3] Wu Wei,Mingjun Wang.An Automatic Method of Location for Number_Plate Using Color Features IEEE 2001.
[4] 郭捷,施鵬飛.基于顏色和紋理分析的車(chē)牌定位方法[J].中國(guó)圖像圖形學(xué)報(bào),2002,7(5):473-476.
[5] 章毓晉.圖像工程(上)――圖像處理與分析[M].清華大學(xué)出版社.
關(guān)鍵詞: 動(dòng)態(tài)紋理分類(lèi); 慢特征分析; 深度學(xué)習(xí); 堆棧降噪自動(dòng)編碼網(wǎng)絡(luò)模型
中圖分類(lèi)號(hào): TN919?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)06?0020?05
Dynamic texture classification method based on stacked denoising autoencoding model
WANG Cai?xia, WEI Xue?yun, WANG Biao
(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)
Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.
Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model
0 引 言
動(dòng)態(tài)紋理是指具有空間重復(fù)性、并隨時(shí)間變化的視覺(jué)模式,這種模式形成了一系列在時(shí)間域上具有某種不變性的圖像序列[1]。不同的動(dòng)態(tài)紋理可能具有相似的外觀,但是卻具有不同的運(yùn)動(dòng)形式,所以表觀和運(yùn)動(dòng)是動(dòng)態(tài)紋理特征的兩大方面。在目前的動(dòng)態(tài)視頻分析系統(tǒng)中,最關(guān)鍵的步驟是如何提取有效的動(dòng)態(tài)紋理特征描述符。在過(guò)去幾十年里,對(duì)紋理的研究大部分都集中在靜態(tài)紋理特征的研究,動(dòng)態(tài)紋理的研究相對(duì)靜態(tài)紋理而言起步要晚的多。動(dòng)態(tài)紋理的研究最早始于20世紀(jì)90年代初,由Nelson和Polana采用建立線(xiàn)性系統(tǒng)模型的方法對(duì)其進(jìn)行研究[2],并且將視覺(jué)運(yùn)動(dòng)劃分為三類(lèi)[3]:行為、運(yùn)動(dòng)事件以及動(dòng)態(tài)紋理。隨后,Szummer 和 Picard提出采用時(shí)空自回歸模型(Spatio?Temporal Auto Regressive,STAR)[4]對(duì)動(dòng)態(tài)紋理序列進(jìn)行建模?;诠饬鞯淖R(shí)別法是目前比較流行的動(dòng)態(tài)紋理識(shí)別法,因?yàn)槠溆?jì)算效率高,并且以一種很直觀的方式來(lái)描述圖像的局部動(dòng)態(tài)紋理特征,F(xiàn)azekas和Chetverikov總結(jié)出,正則性(Regulated)全局流與普通流(Normal Flow)相比,普通流可以同時(shí)包含動(dòng)態(tài)特性和形狀特性[5]?;贚BP的動(dòng)態(tài)紋理方法是最近幾年才提出的一種有效算法,典型的是Zhao等人提出的兩種時(shí)空域上的描述子:時(shí)空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地結(jié)合“運(yùn)動(dòng)”和“外觀”特征。2007―2008年是動(dòng)態(tài)紋理研究最多的兩年,各大期刊雜志連續(xù)刊登有關(guān)動(dòng)態(tài)紋理的研究文章。
本文試圖解決動(dòng)態(tài)自然場(chǎng)景的分類(lèi)問(wèn)題(例如:煙火、河流、風(fēng)暴、海洋、雪花等)。在計(jì)算機(jī)視覺(jué)領(lǐng)域,過(guò)去采用較多的是手動(dòng)提取特征來(lái)表示物體運(yùn)動(dòng)信息(例如:HOF、基于STIP的HOG算法等),實(shí)驗(yàn)表明該類(lèi)方法對(duì)人體行為識(shí)別非常有效。但是由于自然環(huán)境比較復(fù)雜,動(dòng)態(tài)紋理表現(xiàn)不穩(wěn)定,易受光照、遮擋等影響,而手動(dòng)選取特征非常費(fèi)力,需要大量的時(shí)間進(jìn)行調(diào)節(jié),所以該類(lèi)方法并不適用于動(dòng)態(tài)場(chǎng)景分類(lèi)。Theriault等人提出利用慢特征分析的方法來(lái)提取動(dòng)態(tài)視頻序列的特征[8]。該方法雖然能有效表示動(dòng)態(tài)紋理特征,但是其提取的特征維數(shù)較高。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),近幾年深度學(xué)習(xí)網(wǎng)絡(luò)模型在大尺度圖像分類(lèi)問(wèn)題中成功應(yīng)用使得其得到越來(lái)越多人的重視。卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)和堆棧自編碼網(wǎng)絡(luò)是三種典型的深度學(xué)習(xí)網(wǎng)絡(luò)模型,而堆棧自編碼網(wǎng)絡(luò)模型不僅對(duì)高維數(shù)據(jù)有很好的表示,而且采用非監(jiān)督的學(xué)習(xí)模式對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,這對(duì)于傳統(tǒng)的手動(dòng)提取特征。利用堆棧自編碼網(wǎng)絡(luò)模型對(duì)慢特征進(jìn)行進(jìn)一步學(xué)習(xí),不僅能降低數(shù)據(jù)維度,而且還能提取出數(shù)據(jù)更有效的特征表示。
1 基于堆棧自編碼網(wǎng)絡(luò)模型的慢特征分析法
1.1 慢特征分析法
文獻(xiàn)[9?10]中提到,慢特征分析算法的目標(biāo)是從不斷變化的輸入信號(hào)中學(xué)習(xí)不變量,即除了無(wú)意義的常值信號(hào)外,最具不變性質(zhì)的信息,其實(shí)質(zhì)也就是從快速變化的信號(hào)中提取緩慢變化的信號(hào)特征,這種特征是從混合信號(hào)中提取出來(lái)的源信號(hào)的高級(jí)表示,表征信號(hào)源的某些固有屬性[11]。
實(shí)驗(yàn)證明,慢特征分析法在人體行為識(shí)別中有很好的描述作用,這為動(dòng)態(tài)紋理分類(lèi)提供了一個(gè)很好的選擇。慢特征分析算法的核心思想是相關(guān)矩陣的特征值分解,其本質(zhì)是在經(jīng)過(guò)非線(xiàn)性擴(kuò)展特征空間對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,尋找最優(yōu)解的線(xiàn)性組合。
給定一個(gè)時(shí)域輸入信號(hào)序列:
[vt=v1t,v2t,…,vDtT]
目標(biāo)就是學(xué)習(xí)一組映射函數(shù):
[Sv=S1v,S2v,…,SMv]
使得輸出信號(hào)[yt=y1t,y2t,…,yMtT]的各個(gè)分量[yj=Sjvt]的變化盡可能緩慢,而且仍然保留相關(guān)的重要信息。選用時(shí)域信號(hào)一階導(dǎo)數(shù)的均方值來(lái)衡量輸出信號(hào)個(gè)分量的變化率:
[minSj<y?2j>t] (1)
且滿(mǎn)足以下條件:
(1) [<yj>t=0];
(2) [<y2j>t=1];
(3) [?j<j':<yj,yj'>t=0]。
其中:[<y>t]是[y]的時(shí)域平均值;[y?j]是[yj]的時(shí)域一階導(dǎo)數(shù)。這三個(gè)約束條件保證慢特征分析的輸出信號(hào)的各分量的變化率盡可能小,其中條件1和條件2確保輸出沒(méi)有無(wú)意義的常信號(hào)值,條件3確保輸出各分量之間是非相關(guān)的,且不同慢特征承載著不同信息。值得注意的是,函數(shù)[Sv]是輸入信號(hào)的瞬時(shí)函數(shù),所以輸出結(jié)果不能看成是通過(guò)低通濾波器的結(jié)果,慢特征處理速度要比低通濾波器快很多。如圖1所示。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t1.tif>
圖1 時(shí)域輸入信號(hào)慢特征的提取
輸出信號(hào)各分量按照變化率從小到大排列,且互不相關(guān),其最優(yōu)解問(wèn)題可以看成以下公式的解特征值問(wèn)題:
[Sj:<v?v?T>tSj=λjSj] (2)
求解得到的特征值按從小到大的順序排列,即[λ1≤λ2≤???≤λM],輸出信號(hào)的慢特征和最小特征值息息相關(guān)。輸入信號(hào)[vt]可以是多種模式的圖像特征(例如色彩,梯度,SIFT特征,HOG特征)。
這里采用的是v1特征[12?13],該特征對(duì)圖像有很好的表示,確保預(yù)先學(xué)習(xí)到的慢特征能達(dá)到最優(yōu)。
1.2 堆棧自動(dòng)編碼模型
自動(dòng)編碼器模型是深度學(xué)習(xí)網(wǎng)絡(luò)模型之一,其盡可能復(fù)現(xiàn)輸入信號(hào),捕捉代表輸入信號(hào)的主要成分。
如圖2所示,對(duì)于給定輸入信號(hào)[x],根據(jù)式(2)得到輸出[y],此過(guò)程為編碼過(guò)程:
[y=fθx=sWx+b] (3)
式中:[sx=11+θ-x];[W]是[d′×d]維權(quán)重矩陣;[b]是偏移向量。
為了驗(yàn)證輸出[y]是否準(zhǔn)確表達(dá)原輸入信號(hào),利用式(2)對(duì)其進(jìn)行重構(gòu),得到重構(gòu)信號(hào)[z]。此過(guò)程為解碼/重構(gòu)過(guò)程:
[gθ′y=sW′y+b′] (4)
從輸入到輸出的權(quán)值記為[θ=W,b],從輸出到輸入的權(quán)值記為[θ′=W′,b′]。逐層進(jìn)行參數(shù)[θ]和[θ′]的優(yōu)化,式(5)為其目標(biāo)函數(shù):
[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)
調(diào)整參數(shù),使得重構(gòu)誤差達(dá)到最小,因此可以得到[x]的第一層表示。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t2.tif>
圖2 普通DA和降噪DA
降噪自動(dòng)編碼器(Denoising Auto Encoder,Dae)是在自動(dòng)編碼器的基礎(chǔ)上給訓(xùn)練數(shù)據(jù)加入噪聲,編碼器需要學(xué)習(xí)去除噪聲而獲得沒(méi)有被噪聲污染的輸入信號(hào),因此獲得輸入信號(hào)更加魯棒的表達(dá)。堆棧自動(dòng)編碼模型(Sda)是將多個(gè)Dae堆疊起來(lái)形成的一種深度網(wǎng)絡(luò)模型。利用優(yōu)化后的參數(shù)[θ]得到當(dāng)前層的輸出[y](即下一層的輸入),將得到的[y]作為新一層的輸入數(shù)據(jù),逐層進(jìn)行降噪自動(dòng)編碼的過(guò)程,直到到達(dá)多層神經(jīng)網(wǎng)絡(luò)中間隱層的最后一層為止,算出該層輸出,即為輸出特征,如圖3所示。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t3.tif>
圖3 多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
1.3 基于Sda的慢特征分析法
基于Sda的慢特征分析方法利用慢特征分析法預(yù)先學(xué)習(xí)動(dòng)態(tài)視頻序列的慢特征,將該特征作為模型輸入,進(jìn)行多層降噪自動(dòng)編碼網(wǎng)絡(luò)模型參數(shù)的學(xué)習(xí),最后使用SVM分類(lèi)器對(duì)該模型的輸出特征進(jìn)行分類(lèi),具體步驟如圖4所示。
2 實(shí) 驗(yàn)
2.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)估準(zhǔn)則
實(shí)驗(yàn)所用數(shù)據(jù)由10類(lèi)動(dòng)態(tài)場(chǎng)景構(gòu)成(包括海灘,電梯,森林煙火,高速公路,閃電,海洋,鐵路,河流,云,街道),且每一個(gè)類(lèi)別由30個(gè)250×370 pixels大小的彩序列構(gòu)成。這些視頻序列全部來(lái)自于加拿大約克大學(xué)計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室于2012年的YUPENN動(dòng)態(tài)場(chǎng)景數(shù)據(jù)集[14],該數(shù)據(jù)庫(kù)主要強(qiáng)調(diào)的是對(duì)象和表層在短時(shí)間內(nèi)場(chǎng)景的實(shí)時(shí)信息。如圖5所示。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t4.tif>
圖4 基于Sda的慢特征分析步驟圖
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t5.tif>
圖5 YUPENN動(dòng)態(tài)數(shù)據(jù)庫(kù)
將所有彩序列進(jìn)行尺度縮放,分別放大和縮小1.2倍,1.4倍,1.6倍,并且在每一個(gè)尺度上進(jìn)行旋轉(zhuǎn),旋轉(zhuǎn)角度分別為[2°,4°,6°,-2°,-4°,-6°]。所以樣本總數(shù)為(10×30)×(6×6)=10 800個(gè)。實(shí)驗(yàn)性能使用混淆矩陣(Confusion Matrix)進(jìn)行衡量?;煜仃囀嵌喾诸?lèi)問(wèn)題中常用的衡量準(zhǔn)則,它使得分類(lèi)結(jié)果一目了然并能指出錯(cuò)誤預(yù)測(cè)的影響。分類(lèi)矩陣通過(guò)確定預(yù)測(cè)值是否與實(shí)際值匹配,將模型中的所有事例分為不同的類(lèi)別。然后會(huì)對(duì)每個(gè)類(lèi)別中的所有事例進(jìn)行計(jì)數(shù),并在矩陣中顯示總計(jì)。實(shí)驗(yàn)中一共有14個(gè)類(lèi)別的數(shù)據(jù)集,所以最后會(huì)產(chǎn)生一個(gè)大小為14×14的混淆矩陣。
2.2 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)選用線(xiàn)性SVM分類(lèi)器,采用Leave?One?Out 分析法進(jìn)行分類(lèi)。所有視頻序列全部轉(zhuǎn)換成灰度視頻進(jìn)行慢特征分析,輸出大小為4 032維的慢特征向量作為Sda網(wǎng)絡(luò)模型的輸入數(shù)據(jù)。
2.2.1 Sda網(wǎng)絡(luò)模型大小
堆棧降噪自動(dòng)編碼器網(wǎng)絡(luò)層數(shù)以及每一層的大小對(duì)輸出特征的魯棒性和SVM分類(lèi)結(jié)果有重要的影響。當(dāng)網(wǎng)絡(luò)層數(shù)不一樣時(shí),模型學(xué)習(xí)到的特征也就不一樣,網(wǎng)絡(luò)層數(shù)過(guò)低,學(xué)習(xí)力度可能不夠,特征達(dá)不到最佳表示效果,網(wǎng)絡(luò)層數(shù)太高,可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,隱層的大小和最后的分類(lèi)結(jié)果也息息相關(guān),所以選取不同網(wǎng)絡(luò)層數(shù)和隱層大小分別進(jìn)行實(shí)驗(yàn),如圖6所示,選取網(wǎng)絡(luò)層數(shù)分別為1,2,3,隱層大小分別為500,1 000,2 000。由圖6可知,當(dāng)隱層大小為500時(shí)的分類(lèi)得分顯然比1 000和2 000時(shí)高很多;在隱層大小為500時(shí),隨著網(wǎng)絡(luò)層數(shù)不斷增加,實(shí)驗(yàn)結(jié)果不斷提升,當(dāng)網(wǎng)絡(luò)層數(shù)由2層上升到3層時(shí),實(shí)驗(yàn)結(jié)果已經(jīng)非常接近(網(wǎng)絡(luò)層數(shù)為2時(shí)score=95.9%,網(wǎng)絡(luò)層數(shù)為3時(shí)score=96.3%)??梢缘弥?,隨著網(wǎng)絡(luò)層數(shù)不斷增加,分類(lèi)的效果逐漸提高,當(dāng)網(wǎng)絡(luò)層數(shù)為3時(shí),分類(lèi)結(jié)果已非常接近。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t6.tif>
圖6 不同網(wǎng)絡(luò)層數(shù)和隱層大小的分類(lèi)結(jié)果
2.2.2 噪聲
Sdae對(duì)每一層的輸入加入噪聲,編碼器自動(dòng)學(xué)習(xí)如何去除噪聲而獲得更加魯棒的動(dòng)態(tài)紋理特征,因此每一層所加入的噪聲的大小對(duì)提取的特征有很大的影響。因此,選取不同大小的噪聲分別進(jìn)行實(shí)驗(yàn),如圖7所示,選取噪聲大小分別為10%,15%,20%,25%,30%,35%,40%,45%,50%,固定網(wǎng)絡(luò)層大小為[500,500,500];由圖可知,加入噪聲對(duì)分類(lèi)得分的影響呈類(lèi)似拋物線(xiàn)形狀,對(duì)每一層輸入數(shù)據(jù)加入25%的噪聲時(shí)score=0.964為最大值。
2.2.3 混淆矩陣以及實(shí)驗(yàn)與現(xiàn)有方法的比較
圖8為實(shí)驗(yàn)最優(yōu)參數(shù)所計(jì)算出的混淆矩陣,由圖可知,海灘、電梯、高速公路以及海洋的分類(lèi)效果達(dá)到100%,噴泉(Fountain)的分類(lèi)效果雖然最差,但也已經(jīng)達(dá)到83%左右,其容易被誤分成森林火災(zāi)(17%錯(cuò)誤分類(lèi))。由該混淆矩陣可以得知,實(shí)驗(yàn)所用方法能夠達(dá)到將近96.4%平均得分。表1是本文所用方法與現(xiàn)有幾個(gè)比較常用的動(dòng)態(tài)紋理特征提取方法的比較,分別有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是幾個(gè)方法中效果最好的,可以達(dá)到76.7%的分類(lèi)效果,而本文所用方法SFA+Sda比SFA方法提高了將近20%的分類(lèi)得分,并且在每一個(gè)動(dòng)態(tài)場(chǎng)景中分類(lèi)效果總是優(yōu)于其他幾種方法。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t7.tif>
圖7 加入不同噪聲的分類(lèi)結(jié)果
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t8.tif>
圖8 混淆矩陣
表1 本實(shí)驗(yàn)與現(xiàn)有方法比較
3 結(jié) 語(yǔ)
本文提出一種基于多層降噪自動(dòng)編碼網(wǎng)絡(luò)模型的動(dòng)態(tài)紋理分類(lèi)方法:預(yù)先學(xué)習(xí)動(dòng)態(tài)視頻序列的慢特征,以此作為多層降噪自編碼網(wǎng)絡(luò)模型的輸入數(shù)據(jù)進(jìn)行非監(jiān)督的深度學(xué)習(xí),網(wǎng)絡(luò)最頂層的輸出即為所提取的動(dòng)態(tài)紋理特征,采用SVM分類(lèi)器對(duì)該特征進(jìn)行分類(lèi)。本文對(duì)實(shí)驗(yàn)中的各種影響參數(shù)如網(wǎng)絡(luò)模型的深度、每一層的大小以及加入噪聲的大小做了充分的研究,實(shí)驗(yàn)證明,該方法所提取的特征對(duì)動(dòng)態(tài)紋理有很好的表示作用,分類(lèi)效果不錯(cuò),在動(dòng)態(tài)場(chǎng)景分類(lèi)問(wèn)題中有很大的應(yīng)用價(jià)值。
參考文獻(xiàn)
[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.
[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.
[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.
[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.
[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.
[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.
[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.
[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.
[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.
[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.
[11] 馬奎俊,韓彥軍,陶卿,等.基于核的慢特征分析算法[J].模式識(shí)別與人工智能,2011(2):79?84.
[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.
[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.
[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.
[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.
神經(jīng)科研究 神經(jīng)內(nèi)科論文 神經(jīng)網(wǎng)絡(luò)技術(shù) 神經(jīng)網(wǎng)絡(luò)論文 神經(jīng)外科論文 紀(jì)律教育問(wèn)題 新時(shí)代教育價(jià)值觀
部級(jí)期刊 審核時(shí)間1-3個(gè)月
中山大學(xué)腫瘤防治中心;中國(guó)抗癌協(xié)會(huì)神經(jīng)腫瘤專(zhuān)業(yè)委員會(huì)