婷婷超碰在线在线看a片网站|中国黄色电影一级片现场直播|欧美色欧美另类少妇|日韩精品性爱亚洲一级性爱|五月天婷婷乱轮网站|久久嫩草91婷婷操在线|日日影院永久免费高清版|一级日韩,一级鸥美A级|日韩AV无码一区小说|精品一级黄色毛片

首頁(yè) > 文章中心 > 卷積神經(jīng)網(wǎng)絡(luò)的定義

卷積神經(jīng)網(wǎng)絡(luò)的定義

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)的定義范文,相信會(huì)為您的寫作帶來(lái)幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

卷積神經(jīng)網(wǎng)絡(luò)的定義

卷積神經(jīng)網(wǎng)絡(luò)的定義范文第1篇

過(guò)去10年,人們對(duì)機(jī)器學(xué)習(xí)的興趣激增。幾乎每天,你都可以在各種各樣的計(jì)算機(jī)科學(xué)課程、行業(yè)會(huì)議、華爾街日?qǐng)?bào)等等看到有關(guān)機(jī)器學(xué)習(xí)的討論。在所有關(guān)于機(jī)器學(xué)習(xí)的討論中,許多人把機(jī)器學(xué)習(xí)能做的事情和他們希望機(jī)器學(xué)習(xí)做的事情混為一談。從根本上講,機(jī)器學(xué)習(xí)是使用算法從原始數(shù)據(jù)中提取信息,并在某種類型的模型中表示這些信息。我們使用這個(gè)模型來(lái)推斷還沒有建模的其他數(shù)據(jù)。

神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一種模型,它們至少有50年歷史了。神經(jīng)網(wǎng)絡(luò)的基本單元是節(jié)點(diǎn)(node),基本上是受哺乳動(dòng)物大腦中的生物神經(jīng)元啟發(fā)。神經(jīng)元之間的連接也以生物的大腦為模型,這些連接隨著時(shí)間的推移而發(fā)展的方式是為“訓(xùn)練”。

在20世紀(jì)80年代中期和90年代初期,許多重要的架構(gòu)進(jìn)步都是在神經(jīng)網(wǎng)絡(luò)進(jìn)行的。然而,為了得到好的結(jié)果需要大量時(shí)間和數(shù)據(jù),這阻礙了神經(jīng)網(wǎng)絡(luò)的采用,因而人們的興趣也減少了。在21世紀(jì)初,計(jì)算能力呈指數(shù)級(jí)增長(zhǎng),計(jì)算技術(shù)出現(xiàn)了“寒武紀(jì)大爆發(fā)”。在這個(gè)10年的爆炸式的計(jì)算增長(zhǎng)中,深度學(xué)習(xí)成為這個(gè)領(lǐng)域的重要的競(jìng)爭(zhēng)者,贏得了許多重要的機(jī)器學(xué)習(xí)競(jìng)賽。直到2017年,這種興趣也還沒有冷卻下來(lái);今天,我們看到一說(shuō)機(jī)器學(xué)習(xí),就不得不提深度學(xué)習(xí)。

作者本人也注冊(cè)了Udacity的“Deep Learning”課程,這門課很好地介紹了深度學(xué)習(xí)的動(dòng)機(jī),以及從TensorFlow的復(fù)雜和/或大規(guī)模的數(shù)據(jù)集中學(xué)習(xí)的智能系統(tǒng)的設(shè)計(jì)。在課程項(xiàng)目中,我使用并開發(fā)了用于圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò),用于自然語(yǔ)言處理的嵌入式神經(jīng)網(wǎng)絡(luò),以及使用循環(huán)神經(jīng)網(wǎng)絡(luò)/長(zhǎng)短期記憶的字符級(jí)文本生成。

本文中,作者總結(jié)了10個(gè)強(qiáng)大的深度學(xué)習(xí)方法,這是AI工程師可以應(yīng)用于他們的機(jī)器學(xué)習(xí)問(wèn)題的。首先,下面這張圖直觀地說(shuō)明了人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三者之間的關(guān)系。

人工智能的領(lǐng)域很廣泛,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)子集,機(jī)器學(xué)習(xí)又是人工智能的一個(gè)子領(lǐng)域。將深度學(xué)習(xí)網(wǎng)絡(luò)與“經(jīng)典的”前饋式多層網(wǎng)絡(luò)區(qū)分開來(lái)的因素如下:

比以前的網(wǎng)絡(luò)有更多的神經(jīng)元更復(fù)雜的連接層的方法用于訓(xùn)練網(wǎng)絡(luò)的計(jì)算機(jī)能力的“寒武紀(jì)大爆炸”自動(dòng)特征提取

這里說(shuō)的“更多的神經(jīng)元”時(shí),是指神經(jīng)元的數(shù)量在逐年增加,以表達(dá)更復(fù)雜的模型。層(layers)也從多層網(wǎng)絡(luò)中的每一層都完全連接,到在卷積神經(jīng)網(wǎng)絡(luò)中層之間連接局部的神經(jīng)元,再到在循環(huán)神經(jīng)網(wǎng)絡(luò)中與同一神經(jīng)元的循環(huán)連接(recurrent connections)。

深度學(xué)習(xí)可以被定義為具有大量參數(shù)和層的神經(jīng)網(wǎng)絡(luò),包括以下四種基本網(wǎng)絡(luò)結(jié)構(gòu):

無(wú)監(jiān)督預(yù)訓(xùn)練網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)遞歸神經(jīng)網(wǎng)絡(luò)

在本文中,主要介紹后三種架構(gòu)?;旧希矸e神經(jīng)網(wǎng)絡(luò)(CNN)是一個(gè)標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò),通過(guò)共享的權(quán)重在空間中擴(kuò)展。CNN設(shè)計(jì)用于通過(guò)內(nèi)部的卷積來(lái)識(shí)別圖像,它可以看到圖像中待識(shí)別的物體的邊緣。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)被設(shè)計(jì)用于識(shí)別序列,例如語(yǔ)音信號(hào)或文本。它的內(nèi)部有循環(huán),這意味著網(wǎng)絡(luò)上有短的記憶。遞歸神經(jīng)網(wǎng)絡(luò)更像是一個(gè)層級(jí)網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)中,輸入必須以一種樹的方式進(jìn)行分層處理。下面的10種方法可以應(yīng)用于所有這些架構(gòu)。

1.反向傳播

反向傳播(Back-prop)是一種計(jì)算函數(shù)偏導(dǎo)數(shù)(或梯度)的方法,具有函數(shù)構(gòu)成的形式(就像神經(jīng)網(wǎng)絡(luò)中)。當(dāng)使用基于梯度的方法(梯度下降只是方法之一)解決優(yōu)化問(wèn)題時(shí),你需要在每次迭代中計(jì)算函數(shù)梯度。

對(duì)于神經(jīng)網(wǎng)絡(luò),目標(biāo)函數(shù)具有組合的形式。如何計(jì)算梯度呢?有兩種常用的方法:(i)解析微分(Analytic differentiation)。你已經(jīng)知道函數(shù)的形式,只需要用鏈?zhǔn)椒▌t(基本微積分)來(lái)計(jì)算導(dǎo)數(shù)。(ii)利用有限差分進(jìn)行近似微分。這種方法在計(jì)算上很昂貴,因?yàn)楹瘮?shù)值的數(shù)量是O(N),N指代參數(shù)的數(shù)量。不過(guò),有限差分通常用于在調(diào)試時(shí)驗(yàn)證back-prop實(shí)現(xiàn)。

2.隨機(jī)梯度下降法

一種直觀理解梯度下降的方法是想象一條河流從山頂流下的路徑。梯度下降的目標(biāo)正是河流努力達(dá)到的目標(biāo)——即,到達(dá)最底端(山腳)。

現(xiàn)在,如果山的地形是這樣的,在到達(dá)最終目的地之前,河流不會(huì)完全停下來(lái)(這是山腳的最低點(diǎn),那么這就是我們想要的理想情況。)在機(jī)器學(xué)習(xí)中,相當(dāng)從初始點(diǎn)(山頂)開始,我們找到了解決方案的全局最小(或最佳)解。然而,可能因?yàn)榈匦蔚男再|(zhì)迫使河流的路徑出現(xiàn)幾個(gè)坑,這可能迫使河流陷入困境。在機(jī)器學(xué)習(xí)術(shù)語(yǔ)中,這些坑被稱為局部極小值,這是不可取的。有很多方法可以解決這個(gè)問(wèn)題。

因此,梯度下降很容易被困在局部極小值,這取決于地形的性質(zhì)(用ML的術(shù)語(yǔ)來(lái)說(shuō)是函數(shù)的性質(zhì))。但是,當(dāng)你有一種特殊的地形時(shí)(形狀像一個(gè)碗,用ML的術(shù)語(yǔ)來(lái)說(shuō),叫做凸函數(shù)),算法總是保證能找到最優(yōu)解。凸函數(shù)對(duì)ML的優(yōu)化來(lái)說(shuō)總是好事,取決于函數(shù)的初始值,你可能會(huì)以不同的路徑結(jié)束。同樣地,取決于河流的速度(即,梯度下降算法的學(xué)習(xí)速率或步長(zhǎng)),你可能以不同的方式到達(dá)最終目的地。這兩個(gè)標(biāo)準(zhǔn)都會(huì)影響到你是否陷入坑里(局部極小值)。

3.學(xué)習(xí)率衰減

根據(jù)隨機(jī)梯度下降的優(yōu)化過(guò)程調(diào)整學(xué)習(xí)率(learning rate)可以提高性能并減少訓(xùn)練時(shí)間。有時(shí)這被稱為學(xué)習(xí)率退火(learning rate annealing)或自適應(yīng)學(xué)習(xí)率(adaptive learning rates)。訓(xùn)練過(guò)程中最簡(jiǎn)單,也是最常用的學(xué)習(xí)率適應(yīng)是隨著時(shí)間的推移而降低學(xué)習(xí)度。在訓(xùn)練過(guò)程開始時(shí)使用較大學(xué)習(xí)率具有進(jìn)行大的改變的好處,然后降低學(xué)習(xí)率,使得后續(xù)對(duì)權(quán)重的訓(xùn)練更新更小。這具有早期快速學(xué)習(xí)好權(quán)重,后面進(jìn)行微調(diào)的效果。

兩種常用且易于使用的學(xué)習(xí)率衰減方法如下:

逐步降低學(xué)習(xí)率。在特定的時(shí)間點(diǎn)較大地降低學(xué)習(xí)率。

4?. Dropout

具有大量參數(shù)的深度神經(jīng)網(wǎng)絡(luò)是非常強(qiáng)大的機(jī)器學(xué)習(xí)系統(tǒng)。然而,過(guò)擬合在這樣的網(wǎng)絡(luò)中是一個(gè)嚴(yán)重的問(wèn)題。大型網(wǎng)絡(luò)的使用也很緩慢,這使得在測(cè)試時(shí)將許多不同的大型神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)合起來(lái)變得困難。Dropout是解決這個(gè)問(wèn)題的一種方法。

Dropout的關(guān)鍵想法是在訓(xùn)練過(guò)程中隨機(jī)地從神經(jīng)網(wǎng)絡(luò)中把一些units(以及它們的連接)從神經(jīng)網(wǎng)絡(luò)中刪除。這樣可以防止單元過(guò)度適應(yīng)。在訓(xùn)練過(guò)程中,從一個(gè)指數(shù)級(jí)的不同的“稀疏”網(wǎng)絡(luò)中刪除一些樣本。在測(cè)試時(shí),通過(guò)簡(jiǎn)單地使用一個(gè)具有較小權(quán)重的單一網(wǎng)絡(luò),可以很容易地估計(jì)所有這些“變瘦”了的網(wǎng)絡(luò)的平均預(yù)測(cè)效果。這顯著減少了過(guò)擬合,相比其他正則化方法有了很大改進(jìn)。研究表明,在視覺、語(yǔ)音識(shí)別、文檔分類和計(jì)算生物學(xué)等監(jiān)督學(xué)習(xí)任務(wù)中,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)有所提高,在許多基準(zhǔn)數(shù)據(jù)集上獲得了state-of-the-art的結(jié)果。

5. Max Pooling

最大池化(Max pooling)是一個(gè)基于樣本的離散化過(guò)程。目標(biāo)是對(duì)輸入表示(圖像,隱藏層輸出矩陣等)進(jìn)行下采樣,降低其維度,并允許對(duì)包含在分區(qū)域中的特征進(jìn)行假設(shè)。

這在一定程度上是為了通過(guò)提供一種抽象的表示形式來(lái)幫助過(guò)擬合。同時(shí),它通過(guò)減少學(xué)習(xí)的參數(shù)數(shù)量,并為內(nèi)部表示提供基本的平移不變性(translation invariance),從而減少計(jì)算成本。最大池化是通過(guò)將一個(gè)最大過(guò)濾器應(yīng)用于通常不重疊的初始表示的子區(qū)域來(lái)完成的。

6.批量歸一化

當(dāng)然,包括深度網(wǎng)絡(luò)在內(nèi)的神經(jīng)網(wǎng)絡(luò)需要仔細(xì)調(diào)整權(quán)重初始化和學(xué)習(xí)參數(shù)。而批量標(biāo)準(zhǔn)化有助于實(shí)現(xiàn)這一點(diǎn)。

權(quán)重問(wèn)題:無(wú)論權(quán)重的初始化如何,是隨機(jī)的也好是經(jīng)驗(yàn)性的選擇也罷,都距離學(xué)習(xí)到的權(quán)重很遙遠(yuǎn)。考慮一個(gè)小批量(mini batch),在最初時(shí),在所需的特征激活方面將會(huì)有許多異常值。

深度神經(jīng)網(wǎng)絡(luò)本身是有缺陷的,初始層中一個(gè)微小的擾動(dòng),就會(huì)導(dǎo)致后面層巨大的變化。在反向傳播過(guò)程中,這些現(xiàn)象會(huì)導(dǎo)致對(duì)梯度的分散,這意味著在學(xué)習(xí)權(quán)重以產(chǎn)生所需輸出之前,梯度必須補(bǔ)償異常值,而這將導(dǎo)致需要額外的時(shí)間才能收斂。

批量歸一化將梯度從分散規(guī)范化到正常值,并在小批量范圍內(nèi)向共同目標(biāo)(通過(guò)歸一化)流動(dòng)。

學(xué)習(xí)率問(wèn)題:一般來(lái)說(shuō),學(xué)習(xí)率保持較低,只有一小部分的梯度校正權(quán)重,原因是異常激活的梯度不應(yīng)影響學(xué)習(xí)的激活。通過(guò)批量歸一化,減少異常激活,因此可以使用更高的學(xué)習(xí)率來(lái)加速學(xué)習(xí)過(guò)程。

7.長(zhǎng)短時(shí)記憶

LSTM網(wǎng)絡(luò)在以下三個(gè)方面與RNN的神經(jīng)元不同:

能夠決定何時(shí)讓輸入進(jìn)入神經(jīng)元;能夠決定何時(shí)記住上一個(gè)時(shí)間步中計(jì)算的內(nèi)容;能夠決定何時(shí)讓輸出傳遞到下一個(gè)時(shí)間步長(zhǎng)。

LSTM的優(yōu)點(diǎn)在于它根據(jù)當(dāng)前的輸入本身來(lái)決定所有這些。所以,你看下面的圖表:

當(dāng)前時(shí)間標(biāo)記處的輸入信號(hào)x(t)決定所有上述3點(diǎn)。輸入門從點(diǎn)1接收決策,遺忘門從點(diǎn)2接收決策,輸出門在點(diǎn)3接收決策,單獨(dú)的輸入能夠完成所有這三個(gè)決定。這受到我們的大腦如何工作的啟發(fā),并且可以基于輸入來(lái)處理突然的上下文/場(chǎng)景切換。

8. Skip-gram

詞嵌入模型的目標(biāo)是為每個(gè)詞匯項(xiàng)學(xué)習(xí)一個(gè)高維密集表示,其中嵌入向量之間的相似性顯示了相應(yīng)詞之間的語(yǔ)義或句法相似性。Skip-gram是學(xué)習(xí)單詞嵌入算法的模型。

Skip-gram模型(以及許多其他的詞語(yǔ)嵌入模型)的主要思想是:如果兩個(gè)詞匯項(xiàng)(vocabulary term)共享的上下文相似,那么這兩個(gè)詞匯項(xiàng)就相似。

換句話說(shuō),假設(shè)你有一個(gè)句子,比如“貓是哺乳動(dòng)物”。如果你用“狗”去替換“貓”,這個(gè)句子仍然是一個(gè)有意義的句子。因此在這個(gè)例子中,“狗”和“貓”可以共享相同的上下文(即“是哺乳動(dòng)物”)。

基于上述假設(shè),你可以考慮一個(gè)上下文窗口(context window,一個(gè)包含k個(gè)連續(xù)項(xiàng)的窗口),然后你跳過(guò)其中一個(gè)單詞,試著去學(xué)習(xí)一個(gè)能夠得到除跳過(guò)項(xiàng)外所有項(xiàng)的神經(jīng)網(wǎng)絡(luò),并預(yù)測(cè)跳過(guò)的項(xiàng)是什么。如果兩個(gè)詞在一個(gè)大語(yǔ)料庫(kù)中反復(fù)共享相似的語(yǔ)境,則這些詞的嵌入向量將具有相近的向量。

9.連續(xù)詞袋(Continuous Bag Of Words)

在自然語(yǔ)言處理問(wèn)題中,我們希望學(xué)習(xí)將文檔中的每個(gè)單詞表示為一個(gè)數(shù)字向量,使得出現(xiàn)在相似的上下文中的單詞具有彼此接近的向量。在連續(xù)的單詞模型中,我們的目標(biāo)是能夠使用圍繞特定單詞的上下文并預(yù)測(cè)特定單詞。

我們通過(guò)在一個(gè)龐大的語(yǔ)料庫(kù)中抽取大量的句子來(lái)做到這一點(diǎn),每當(dāng)我們看到一個(gè)單詞時(shí),我們就會(huì)提取它周圍的單詞。然后,我們將上下文單詞輸入到一個(gè)神經(jīng)網(wǎng)絡(luò),并預(yù)測(cè)位于這個(gè)上下文中心的單詞。

當(dāng)我們有成千上萬(wàn)的這樣的上下文單詞和中心詞以后,我們就有了一個(gè)神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集的實(shí)例。訓(xùn)練神經(jīng)網(wǎng)絡(luò),最后編碼的隱藏層輸出表示特定單詞的嵌入。而當(dāng)我們對(duì)大量的句子進(jìn)行訓(xùn)練時(shí)也能發(fā)現(xiàn),類似語(yǔ)境中的單詞得到的是相似的向量。

10.遷移學(xué)習(xí)

卷積神經(jīng)網(wǎng)絡(luò)的定義范文第2篇

關(guān)鍵詞 人臉識(shí)別;Gabor小波;小波網(wǎng)絡(luò);神經(jīng)網(wǎng)絡(luò);特征抽取

中圖分類號(hào)TP39 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2012)58-0183-02

0 引言

隨著信息技術(shù)的發(fā)展,人臉識(shí)別因在公安、身份驗(yàn)證、安全驗(yàn)證系統(tǒng)、醫(yī)學(xué)、考勤系統(tǒng)等各方面的巨大應(yīng)用前景而成為當(dāng)前人工智能和模式識(shí)別領(lǐng)域的研究熱點(diǎn)。人臉識(shí)別是指利用攝像頭捕捉人的面部圖片,利用計(jì)算機(jī)分析比較人臉的生物特征來(lái)進(jìn)行身份識(shí)別。雖然人類能夠輕易識(shí)別出人臉和表情,但是人臉機(jī)器識(shí)別卻是一個(gè)難度極大的課題[1]。

基于Gabor小波彈性圖匹配算法作為一種有效的人臉識(shí)別方法,雖然方法簡(jiǎn)單,但是實(shí)現(xiàn)復(fù)雜、計(jì)算量大、耗時(shí)多,本文提出了一種改進(jìn)的基于局部特征Gabor小波的BP神經(jīng)網(wǎng)絡(luò)方法,此方法避免了彈性如匹配算法的高計(jì)算量,神經(jīng)網(wǎng)絡(luò)由于學(xué)習(xí)和記憶能力,提高了算法容錯(cuò)性。本文采用Gabor小波特征空間作為神經(jīng)網(wǎng)絡(luò)輸入空間,然后使用神經(jīng)網(wǎng)絡(luò)作為分類器。

1 基于局部特征的Gabor小波

1.1 Gabor濾波器數(shù)組

二維圖像的離散Gabor 變換的定義見文獻(xiàn)[4],對(duì)特征點(diǎn)圖像模板進(jìn)行離散Gabor 變換的Gabor核函數(shù)如下:

式中參數(shù)描述三角函數(shù)的波長(zhǎng),參數(shù)描述小波的方向性。依David S. Bolme 的取值對(duì)人臉圖像的處理間隔4 個(gè)像素,即分別取{4 , ,8, , 16};對(duì)的取值從0到π的區(qū)間分別取{0 ,π/ 8 ,2π/ 8 ,3π/ 8 ,4π/ 8 ,5π/ 8 ,6π/ 8 ,7π/ 8}共8個(gè)方向,π到2π區(qū)間的方向性由于小波的奇偶對(duì)稱性而省去。參數(shù)描述三角函數(shù)的相角,取∈{ 0 , π/2} ;參數(shù)描述高斯半徑,取=;參數(shù)描述高斯的方向角,選取=1 ;這樣通過(guò)選取一系列的5個(gè)不同的和8個(gè)方向的,就可以得到40個(gè)二維的復(fù)數(shù)離散Gabor濾波器組。

1.2 Gabor小波特征值

GaborJet是根據(jù)特征點(diǎn)的位置坐標(biāo)(xn,yn),對(duì)特征點(diǎn)作Gabor變換得到的。具體方法是對(duì)每一個(gè)特征點(diǎn),以(xn,yn)為中心提取該特征點(diǎn)周圍的正方形圖像區(qū)域的圖像灰度信息,然后通過(guò)該圖像區(qū)域與特定波長(zhǎng)、方向的2D Gabor濾波器卷積,從而得到該特征點(diǎn)的頻率信息等。

2 改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)

1988年,Rumelhart、Hinion和Williams提出了用于前向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的誤差反向傳播算法(Error Back Propagation,EBP,簡(jiǎn)稱BP),成功地解決了多層網(wǎng)絡(luò)中隱含層神經(jīng)連接權(quán)值的學(xué)習(xí)問(wèn)題[2]。

BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程即學(xué)習(xí)過(guò)程:神經(jīng)網(wǎng)絡(luò)在外界輸入樣本的刺激下不斷改變網(wǎng)絡(luò)的連接權(quán)值,以使網(wǎng)絡(luò)的輸出不斷地接近期望的輸出。學(xué)習(xí)的本質(zhì)是對(duì)各連接權(quán)值的動(dòng)態(tài)調(diào)整,令輸出結(jié)果達(dá)到預(yù)期目標(biāo)。學(xué)習(xí)規(guī)則是在學(xué)習(xí)過(guò)程中網(wǎng)絡(luò)中各神經(jīng)元的連接權(quán)變化所依據(jù)的一定的調(diào)整規(guī)則。圖1為改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的模型圖。

原始BP算法的主要缺點(diǎn)[3]為:收斂速度慢和可能陷入局部極值。本文對(duì)BP算法進(jìn)行了改進(jìn),改進(jìn)方法如下:

1)Sigmoid函數(shù)的改進(jìn):在實(shí)驗(yàn)過(guò)程中將產(chǎn)生較大的誤差時(shí),S型函數(shù)的標(biāo)準(zhǔn)形式用來(lái)生成輸出的分類,并可能會(huì)出現(xiàn)不收斂。因此為了解決這個(gè)問(wèn)題的辦法是采取 改進(jìn)的S型函數(shù)如式2.1所示。k的值越大越容易收斂,但收斂速度較慢;k較小可以使得S型函數(shù)較穩(wěn)定,其收斂速度快,但容易產(chǎn)生不穩(wěn)定。經(jīng)多次不同值的實(shí)驗(yàn),最終選定 k=3. 5。

2)學(xué)習(xí)速率自調(diào)整模型:學(xué)習(xí)速率自調(diào)整的BP算法縮短了學(xué)習(xí)時(shí)間。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程,即連接下層節(jié)點(diǎn)和上層節(jié)點(diǎn)之間的權(quán)重拒陣Wij的設(shè)定和誤差修正過(guò)程。BP網(wǎng)絡(luò)自學(xué)習(xí)方式:需要設(shè)定期望值和輸入樣本。自學(xué)習(xí)模型為:

h 是學(xué)習(xí)因子;是輸出節(jié)點(diǎn)i的計(jì)算誤差;Oj是輸出節(jié)點(diǎn)j的計(jì)算輸出;a是動(dòng)量因子。

3 人臉識(shí)別實(shí)驗(yàn)與結(jié)果分析

采用ORL人臉數(shù)據(jù)庫(kù),每個(gè)人臉有10幅不同細(xì)節(jié)的圖片。識(shí)別率檢測(cè)數(shù)據(jù)庫(kù)A:選擇30個(gè)人作為測(cè)試對(duì)象。取每個(gè)人的前4幅圖片共120幅圖片作為人臉數(shù)據(jù)庫(kù)。然后使用另外的180幅圖片進(jìn)行測(cè)試。

由于定位特征點(diǎn)位置會(huì)有一些誤差,所以在試驗(yàn)階段人臉數(shù)據(jù)庫(kù)中的人臉特征點(diǎn)位置手工標(biāo)注,這樣可以從初始階段減少誤差。人工標(biāo)注圖像的各個(gè)特征點(diǎn)的實(shí)例如圖2所示:

對(duì)每個(gè)特征點(diǎn)特區(qū)Gabor特征,存入數(shù)組作為BP神經(jīng)網(wǎng)絡(luò)輸入。然后使用樣本進(jìn)行訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)分類器。當(dāng)訓(xùn)練完成后,采用測(cè)試圖片進(jìn)行識(shí)別統(tǒng)計(jì)識(shí)別效率和識(shí)別時(shí)間。

其中一組訓(xùn)練和識(shí)別樣本實(shí)驗(yàn)結(jié)果如表1所示。

其中前5列是該人的訓(xùn)練樣本,后5列是該人的識(shí)別樣本。由于本系統(tǒng)神經(jīng)網(wǎng)絡(luò)輸出數(shù)目與數(shù)據(jù)庫(kù)中人物數(shù)一樣,所以每個(gè)人有8個(gè)輸出,每行表示測(cè)試圖片與數(shù)據(jù)庫(kù)中一個(gè)人相似度。訓(xùn)練時(shí)輸出為,其中0.9表示輸出目標(biāo),訓(xùn)練誤差為0.01。輸出為0.9附近就是識(shí)別目標(biāo)。

采用不同的方法系統(tǒng)識(shí)別率不同,或者相同方法采用不同人臉圖像庫(kù)系統(tǒng)識(shí)別率也會(huì)不同。根據(jù)上面實(shí)驗(yàn),表2統(tǒng)計(jì)了不同人臉識(shí)別算法的識(shí)別率。

分別在PC平臺(tái)上進(jìn)行測(cè)試,EBGM大約需要1s時(shí)間,而本算法只需要0.01s,大大提高了算法效率。

4 結(jié)論

基于EBGM與本文人臉識(shí)別算法比較,本文算法有效的解決了傳統(tǒng)彈性圖匹配算法計(jì)算復(fù)雜的問(wèn)題,無(wú)需進(jìn)行彈性圖粗匹配和精確匹配,只需要訓(xùn)練,在識(shí)別時(shí)保留了Gabor小波生物特性基礎(chǔ)上大大提高了傳統(tǒng)算法實(shí)時(shí)性。在識(shí)別能力上,神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)分類作用,比傳統(tǒng)彈性圖匹配具有更高的識(shí)別率。

參考文獻(xiàn)

[1]焦峰,山世光,崔國(guó)勤,等.基于局部特征分析的人臉識(shí)別方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2003,15(1).

[2]M Riedmiiler and H Braum.A direct adaptive method for faster baek Propagation learning:The RPOP algorlthm. Proceedings of the IEEE International Coference on Neural Networks(ICNN).San Fraueisco, 1993:586-591.

[3]Phillips P J, Moon H, Rizvi S A, et al.The FERET Evaluation Methodology for Face recongition Algorithms. IEEE Transaction on Pattern Analysis and Machine Intelligence,2000, 22(10):1090-1104.

卷積神經(jīng)網(wǎng)絡(luò)的定義范文第3篇

關(guān)鍵詞:視覺注視;移動(dòng)端;數(shù)據(jù)集;行為推測(cè)

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)01-0254-03

Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.

Key words: visual gaze; mobile end; data set; behavior conjecture

1 概述

伴S著計(jì)算機(jī)軟硬件性能和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,大規(guī)模的并行計(jì)算技術(shù)突飛猛進(jìn),不斷地發(fā)展使各種現(xiàn)有技術(shù)變得越來(lái)越成熟,同時(shí)機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域也都得到了飛速發(fā)展。視覺技術(shù)的發(fā)展變得越來(lái)越重要,并且可以應(yīng)用到實(shí)際生活中的很多方面。人類大量的視覺信息現(xiàn)在可以利用計(jì)算機(jī)來(lái)輔助處理,并完成相關(guān)的一些工作。相對(duì)于生物信息識(shí)別技術(shù)這一計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)技術(shù)來(lái)說(shuō),也已廣泛應(yīng)用于日常生活中[1]。比如指紋識(shí)別器,人臉考勤器等平時(shí)在許多地方可以經(jīng)常見到,還有居民家用的攝像頭智能報(bào)警系統(tǒng)以及近期炒得火熱的運(yùn)用支付寶進(jìn)行刷臉而完成的支付技術(shù)等,這些都是運(yùn)用了生物信息識(shí)別技術(shù)?,F(xiàn)實(shí)中的種種跡象已經(jīng)表明運(yùn)用生物信息識(shí)別的計(jì)算機(jī)技術(shù)已漸漸的滲透到人們的日常生活中并成為不可或缺的組成部分。時(shí)下發(fā)展較快也比較常見的生物特征有視網(wǎng)膜、指紋、人臉和人眼等。這些生物信息比如人臉具有個(gè)體差異性和自身穩(wěn)定性特點(diǎn),從用戶的角度來(lái)看該特征具有便攜和低侵入等一些優(yōu)點(diǎn)。而人眼作為人臉中最顯著的特征,又是人們獲取外界信息最直接最方便的途徑。都說(shuō)眼是心靈的窗戶,因?yàn)檠劬χ刑N(yùn)含著表情、意圖等多種信息。因此,眼睛注視的行為預(yù)測(cè)受到了國(guó)內(nèi)外眾多學(xué)者的廣泛關(guān)注,同時(shí)在生物信息識(shí)別領(lǐng)域中也具有重要的研究意義[2]。

2 注視預(yù)測(cè)問(wèn)題

2.1 問(wèn)題的背景

在心理、認(rèn)知和用戶交互研究中的注視跟蹤最近已朝向移動(dòng)解決方案發(fā)展,因?yàn)樗鼈兪沟每梢灾苯釉u(píng)估用戶在自然環(huán)境中的視覺注意。 除了注意,注視還可以提供關(guān)于用戶的動(dòng)作和意圖的信息:用戶正在做什么以及接下來(lái)將做什么。然而,在自然狀態(tài)下非結(jié)構(gòu)化的任務(wù)中注視行為是相當(dāng)復(fù)雜的,并且不能使用在受控的實(shí)驗(yàn)室環(huán)境中創(chuàng)建的模型來(lái)得到令人滿意的解釋。自然條件下和實(shí)驗(yàn)室環(huán)境有著很大的不同。為了演化在自然環(huán)境中對(duì)注視行為的推斷,需要一種更加整體的方法,將從認(rèn)知科學(xué)到機(jī)器學(xué)習(xí)的許多學(xué)科結(jié)合在一起[3]。

從人機(jī)交互技術(shù)到醫(yī)學(xué)診斷到心理學(xué)研究再到計(jì)算機(jī)視覺,眼睛注視跟蹤在許多領(lǐng)域都有應(yīng)用。注視是外部可觀察的人類視覺注意的指標(biāo),許多人試圖記錄它。對(duì)于眼睛視線方面的研究可以追溯到十八世紀(jì)后期。而現(xiàn)如今已經(jīng)存在各種解決方案(其中許多是商業(yè)化的),但是所有的解決方案都具有以下一個(gè)或多個(gè)方面的問(wèn)題:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在現(xiàn)實(shí)中的自然條件下,這些因素對(duì)實(shí)際的應(yīng)用會(huì)造成一些障礙影響,使得眼睛注視跟蹤不能成為任何具有合理的相機(jī)(例如,智能手機(jī)或網(wǎng)絡(luò)攝像頭)的人應(yīng)該可以使用的普及技術(shù)。如何才能使得這種技術(shù)普及并且得到應(yīng)用,提出了一種解決方案。

2.2問(wèn)題的提出

研究中首先要解決的就是用戶的約束問(wèn)題,也就是自然條件下使用過(guò)程中所受到的各種限制問(wèn)題。到目前為止,基于注視數(shù)據(jù)推斷用戶動(dòng)作的研究受到許多的限制,特別是在自然環(huán)境中。限制因素可能包括可用的商業(yè)解決方案的昂貴性,其專有性和封閉性以及缺乏實(shí)時(shí)交互能力等方面。目前的注視跟蹤系統(tǒng),只是盡量在移動(dòng)設(shè)置中設(shè)置各種條件進(jìn)行補(bǔ)救。商業(yè)化定制化的解決方案都有其獨(dú)自的閉合性質(zhì),因此阻礙了注視跟蹤算法的發(fā)展,并且使得不同方法之間的客觀比較變得不可能[4]。此外,注視是一種復(fù)雜的現(xiàn)象,涉及認(rèn)知過(guò)程的相互作用。這些過(guò)程在設(shè)置計(jì)算上的建模是非常困難的,尤其是涉及一些未知因素,使得構(gòu)建實(shí)驗(yàn)設(shè)置成為一個(gè)很大的挑戰(zhàn)。此外,來(lái)自跟蹤實(shí)驗(yàn)的數(shù)據(jù)因?yàn)槠渖虡I(yè)化的原因很少共享,即使共享數(shù)據(jù)很大部分也是有其獨(dú)立的實(shí)驗(yàn)條件。這些方面的問(wèn)題都阻礙了跨學(xué)科方法在分析和利用注視數(shù)據(jù)和實(shí)驗(yàn)的相關(guān)研究與發(fā)展。

2.3 解決問(wèn)題的研究方向

對(duì)基于注視的推斷的個(gè)體貢獻(xiàn)通常保持孤立,不能形成更大的整體以促進(jìn)對(duì)注視動(dòng)作行為的研究。隨著這方面的技術(shù)發(fā)展和應(yīng)用,最近出現(xiàn)了一些開源的解決方案。雖然在不同的應(yīng)用和用戶界面中使用注視已經(jīng)相當(dāng)有限,但是移動(dòng)注視跟蹤的新穎應(yīng)用開始出現(xiàn)并得到了很快的發(fā)展。然而使用移動(dòng)注視跟蹤來(lái)推斷用戶動(dòng)作的問(wèn)題是高度多學(xué)科的,需要深入理解各個(gè)研究領(lǐng)域,包括人眼的功能,數(shù)學(xué)建模,計(jì)算機(jī)視覺,機(jī)器學(xué)習(xí),信息技術(shù),認(rèn)知過(guò)程,用戶交互以及心理學(xué)。任何一個(gè)研究員或甚至任何研究小組都不可能擁有所有研究領(lǐng)域的專家,因此需要相互的協(xié)作共同推進(jìn)技術(shù)的發(fā)展[5]。

目前的研究主要是從以下幾個(gè)方面進(jìn)行:

1)研究移動(dòng)注視跟蹤的認(rèn)知方面,例如增強(qiáng)對(duì)任務(wù)中的注視行為的理解或識(shí)別不同任務(wù)的特征和階段;

2)開發(fā)用于從注視數(shù)據(jù)推斷用戶動(dòng)作的計(jì)算方法,諸如應(yīng)用機(jī)器學(xué)習(xí)用于行為推斷,優(yōu)選地實(shí)時(shí)地;

3)增強(qiáng)用于改善移動(dòng)注視跟蹤方法和性能的技術(shù)軟件/硬件解決方案,并使得設(shè)備更容易訪問(wèn);

4)發(fā)現(xiàn)注視數(shù)據(jù)在自然環(huán)境和虛擬和增強(qiáng)現(xiàn)實(shí)應(yīng)用中的潛在用途,以及定義任務(wù),其中注視可以是用戶動(dòng)作的有用的預(yù)測(cè)器。

3 解決方案

首先選擇移動(dòng)端進(jìn)行研究,因?yàn)槟壳氨容^普遍的移動(dòng)設(shè)備比如智能手機(jī)、平板電腦都有自己可靠的工作系統(tǒng),且不需要外部附件。移動(dòng)設(shè)備相對(duì)于其他平臺(tái)具有以下優(yōu)勢(shì):

1)使用的廣泛性。據(jù)估計(jì),到2019年,世界上超過(guò)三分之一的人口擁有智能手機(jī),遠(yuǎn)遠(yuǎn)超過(guò)臺(tái)式機(jī)/筆記本電腦用戶;

2)軟硬件技術(shù)升級(jí)的采用率較高。大部分的移動(dòng)設(shè)備具有允許使用擁有計(jì)算復(fù)雜數(shù)據(jù)方法的實(shí)時(shí)的最新軟硬件;

3)移動(dòng)設(shè)備上相機(jī)的大量使用已經(jīng)導(dǎo)致相機(jī)技術(shù)的快速開發(fā)和部署;

4)相機(jī)相對(duì)于屏幕的固定位置減少了未知參數(shù)的數(shù)量,潛在地允許開發(fā)高精度的校準(zhǔn)跟蹤應(yīng)用。

3.1 注視類型分析

注視估計(jì)方法可以分為基于模型或基于外觀[6]?;谀P偷姆椒ㄊ褂醚劬Φ膸缀文P?,并且可以被細(xì)分為基于角膜反射和基于形狀的方法。另一方面,基于形狀的方法從觀察到的眼睛形狀觀察注視方向。這些方法傾向于具有低的圖像質(zhì)量和可變的照明條件。基于外觀的方法直接使用眼睛作為輸入,并可能在低分辨率圖像上工作。相比基于模型的方法,基于外觀的方法被認(rèn)為需要更大量的用戶特定的訓(xùn)練數(shù)據(jù)。通過(guò)使用深度學(xué)習(xí)和大規(guī)模數(shù)據(jù)不必依賴于視覺,以實(shí)現(xiàn)準(zhǔn)確的無(wú)校準(zhǔn)注視估計(jì)。這種方案提出建立一個(gè)基于外觀的數(shù)據(jù)模型,而不使用任何手工設(shè)計(jì)的功能,例如頭部姿勢(shì)或眼球中心位置。

3.2 技術(shù)方案

深度學(xué)習(xí)的最近成功在計(jì)算機(jī)視覺的各種領(lǐng)域中是顯而易見的,但是它對(duì)改善眼睛跟蹤性能的影響還是相當(dāng)有限。因?yàn)樯疃葘W(xué)習(xí)是需要大量的數(shù)據(jù)作為支持,而視線追蹤這方面的數(shù)據(jù)集還比較少,普通的研究所得到的稻菁比較有限,最大的數(shù)據(jù)集通常只是具有50個(gè)受試者左右,由于缺乏大規(guī)模數(shù)據(jù)的可用性,因此發(fā)展比較緩慢。因而提出了使用深度學(xué)習(xí)進(jìn)行研究的一套方案,就是構(gòu)造大規(guī)模的數(shù)據(jù)集。利用網(wǎng)絡(luò)資源構(gòu)造一個(gè)大規(guī)模的基于移動(dòng)的眼動(dòng)跟蹤數(shù)據(jù)集,它包含來(lái)自各種背景的大量的受試者,在可變照明條件和不受限制的頭部運(yùn)動(dòng)下記錄[7]。運(yùn)用現(xiàn)有的智能算法得到一個(gè)可以進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)端到端的注視預(yù)測(cè)的后臺(tái)決策網(wǎng)絡(luò)。不依賴任何預(yù)先存在的系統(tǒng),不需要頭部姿態(tài)估計(jì)或其他手動(dòng)設(shè)計(jì)的特征用于預(yù)測(cè)。使用只有雙眼和臉部的特征訓(xùn)練網(wǎng)絡(luò),在這個(gè)領(lǐng)域的性能優(yōu)于現(xiàn)有的眼睛跟蹤方法。雖然現(xiàn)在的決策網(wǎng)絡(luò)在精度方面實(shí)現(xiàn)了很先進(jìn)的性能,但是數(shù)據(jù)輸入的大小和參數(shù)的數(shù)量使得難以在移動(dòng)設(shè)備上實(shí)時(shí)使用。 為了解決這個(gè)問(wèn)題,需要培養(yǎng)學(xué)習(xí)得到一個(gè)更小更快的網(wǎng)絡(luò),在移動(dòng)設(shè)備上實(shí)現(xiàn)實(shí)時(shí)性能,使得精度損失進(jìn)一步降低。

3.3 大規(guī)模數(shù)據(jù)集

為了達(dá)到這一方案的預(yù)測(cè)效果,首先要進(jìn)行的是數(shù)據(jù)集的建立。網(wǎng)絡(luò)上相關(guān)的研究中有許多公開的注視數(shù)據(jù)集[8]??偨Y(jié)對(duì)比這些相關(guān)的數(shù)據(jù)集,分析出有些早期的數(shù)據(jù)集不包含顯著性的頭部姿勢(shì)變化或具有粗略的注視點(diǎn)采樣密度。需要對(duì)這些數(shù)據(jù)進(jìn)行篩選,使得到的數(shù)據(jù)具有隨機(jī)分布特點(diǎn)。雖然一些現(xiàn)代數(shù)據(jù)集遵循類似的方法,但它們的規(guī)模(尤其是參與者的數(shù)量)相當(dāng)有限。大多數(shù)現(xiàn)有的眼動(dòng)追蹤數(shù)據(jù)集已經(jīng)由邀請(qǐng)實(shí)驗(yàn)室參與者的研究人員收集,這一過(guò)程導(dǎo)致數(shù)據(jù)缺乏變化,并且成本高且效率不高。因此需要大量的進(jìn)行數(shù)據(jù)收集和篩選分析。大規(guī)模數(shù)據(jù)可以通過(guò)卷積神經(jīng)網(wǎng)絡(luò)有效地識(shí)別人臉(他們的眼睛)上的細(xì)粒度差異,從而做出準(zhǔn)確的預(yù)測(cè)。

收集眼動(dòng)跟蹤數(shù)據(jù)應(yīng)該注意的方面:

1)可擴(kuò)展性。數(shù)據(jù)應(yīng)該是自然條件下的使得用戶具有靈活性;

2)可靠性。運(yùn)用現(xiàn)有的智能移動(dòng)設(shè)備真實(shí)的應(yīng)用圖像而非設(shè)計(jì)處理過(guò)的圖像;

3)變異性。盡量使數(shù)據(jù)具有較大的變異性,使得模型更加穩(wěn)健,適應(yīng)各種環(huán)境下的操作。

4 結(jié)束語(yǔ)

文章介紹了一種針對(duì)移動(dòng)設(shè)備的用戶注視行為推測(cè)解決方案。首先建立一個(gè)大規(guī)模眼動(dòng)跟蹤數(shù)據(jù)集,收集大量的注視數(shù)據(jù)。大型數(shù)據(jù)集的重要性,以及具有大量各種數(shù)據(jù)以能夠訓(xùn)練用于眼睛跟蹤的魯棒模型。然后,訓(xùn)練得到一個(gè)深層卷積神經(jīng)網(wǎng)絡(luò),用于預(yù)測(cè)注視。通過(guò)仔細(xì)的評(píng)估,利用深度學(xué)習(xí)可以魯棒地預(yù)測(cè)注視,達(dá)到一個(gè)較好的水平。此外,雖然眼睛跟蹤已經(jīng)存在了幾個(gè)世紀(jì),相信這種新方案的策略可以作為下一代眼動(dòng)跟蹤解決方案的關(guān)鍵基準(zhǔn)。希望能通過(guò)這方面的研究,使人機(jī)交互得到更好的發(fā)展。

參考文獻(xiàn):

[1] 崔耀 視控人機(jī)交互系統(tǒng)技術(shù)研究與實(shí)現(xiàn)[D].西安,西安電子科技大學(xué),2013.

[2] 遲健男, 王志良, 張闖.視線追蹤[M].北京: 機(jī)械工業(yè)出版社, 2011.

[3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer VisionCECCV 2012. Springer, 314-327.

[4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/

6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.

[5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.

[6] 楊彩霞.基于近紅外光源的非接觸式視線跟蹤技術(shù)研究 [D].山東:山東大學(xué),2012.

卷積神經(jīng)網(wǎng)絡(luò)的定義范文第4篇

關(guān)鍵詞:人工智能 心血管 超聲

大數(shù)據(jù)是現(xiàn)代醫(yī)學(xué)模式的重要特征。在這種醫(yī)療模式下,要求醫(yī)療人員在確?;颊甙踩徒】档耐瑫r(shí)追求效率的最大化[1]。對(duì)于高分辨率的醫(yī)學(xué)影像成像,集中體現(xiàn)在醫(yī)務(wù)人員快速、準(zhǔn)確、有效地解釋影像數(shù)據(jù)(包括肉眼可見和不可見),挖掘利于診斷和治療的有用信息。在此背景下,人工智能(artificial intelligence,AI)應(yīng)運(yùn)而生,它為促進(jìn)圖像采集、測(cè)量、報(bào)告和隨后的臨床路徑以及影像和臨床數(shù)據(jù)的整合提供了有效手段[2]。心血管影像的精確性成為AI臨床應(yīng)用中的主要領(lǐng)域之一,本文對(duì)此作一綜述。

1 人工智能及其在醫(yī)學(xué)上的應(yīng)用

AI是一個(gè)廣義的術(shù)語(yǔ),指的是機(jī)器或計(jì)算程序執(zhí)行具有人類智能特征的任務(wù)的能力,如模式識(shí)別和解決問(wèn)題的能力等。AI可以通過(guò)彌補(bǔ)人類智能,使現(xiàn)有醫(yī)療診斷和預(yù)后價(jià)值最大化,同時(shí)使醫(yī)師負(fù)擔(dān)最小化,從而顯著改善健康診療過(guò)程和結(jié)果。AI在臨床實(shí)踐中的應(yīng)用預(yù)示著醫(yī)學(xué)領(lǐng)域一個(gè)更為劇烈變化時(shí)代的到來(lái),在影像學(xué)方面尤其如此。一項(xiàng)通過(guò)分析科學(xué)網(wǎng)數(shù)據(jù)庫(kù)的研究[3]發(fā)現(xiàn),目前AI在醫(yī)學(xué)的研究領(lǐng)域主要集中在大數(shù)據(jù)分析、腦卒中康復(fù)、心臟手術(shù)和醫(yī)療診斷和預(yù)后預(yù)測(cè)等方面。其中,用于醫(yī)學(xué)診斷、預(yù)后預(yù)測(cè)和分類的神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)是主要熱點(diǎn),占所有文獻(xiàn)的26%;而未來(lái)最引人關(guān)注的研究主題是基于AI的微創(chuàng)手術(shù)。然而,關(guān)于AI數(shù)據(jù)管理、模型可靠性、模型臨床效用驗(yàn)證等問(wèn)題尚未進(jìn)行廣泛研究。

2 人工智能的機(jī)器學(xué)習(xí)法

大數(shù)據(jù)是一個(gè)經(jīng)常用來(lái)描述大量收集數(shù)據(jù)的術(shù)語(yǔ),如來(lái)自大型生物信息庫(kù)的基因組數(shù)據(jù)、電子健康記錄檔案和大型研究隊(duì)列數(shù)據(jù)以及影像學(xué)掃描數(shù)據(jù)等。AI系統(tǒng)通過(guò)識(shí)別和提取一組觀測(cè)數(shù)據(jù)(數(shù)據(jù)集)的模式來(lái)自主獲取知識(shí)的過(guò)程稱為機(jī)器學(xué)習(xí)(machine learning,ML)。ML是人工智能的一個(gè)組成部分,描述為計(jì)算機(jī)從經(jīng)驗(yàn)中學(xué)習(xí)的過(guò)程,并在沒有事先知識(shí)的情況下執(zhí)行預(yù)定的任務(wù)[4]。機(jī)器學(xué)習(xí)可以進(jìn)一步分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),這取決于用于學(xué)習(xí)的樣本是否完全標(biāo)記、部分標(biāo)記或未標(biāo)記。ML的典型例子是人工神經(jīng)網(wǎng)絡(luò),后者基于人類大腦的神經(jīng)元及其連接,神經(jīng)元之間的相互依賴關(guān)系反映出不同的權(quán)重,每個(gè)神經(jīng)元接受多個(gè)輸入,所有的輸入一起決定了神經(jīng)元的激活。通過(guò)樣本訓(xùn)練找到這些合適權(quán)重的過(guò)程就是學(xué)習(xí)。學(xué)習(xí)過(guò)程的復(fù)雜性和所需的樣本量隨著神經(jīng)元數(shù)量的增加而增加。由于計(jì)算能力和樣本大小的限制,機(jī)器學(xué)習(xí)應(yīng)用程序的成功依賴于從原始樣本中手工提取特征來(lái)減少神經(jīng)元的數(shù)量。為了解決這一問(wèn)題,人們提出了深度學(xué)習(xí)的方法,即自動(dòng)學(xué)習(xí)代表性的樣本。深度學(xué)習(xí)是指一種特別強(qiáng)大的ML方法,它利用卷積神經(jīng)網(wǎng)絡(luò)模擬人類的認(rèn)知,常用于影像模式識(shí)別和分類。

模型訓(xùn)練是所有ML類型的共同過(guò)程,它是利用模型分析所提供的數(shù)據(jù)中的各種特性來(lái)學(xué)習(xí)如何生成輸出標(biāo)簽的過(guò)程[5]。如在超聲心動(dòng)圖中,一個(gè)模型可以分析各種特征,如左心室壁厚度和左心室射血分?jǐn)?shù),以確定患者是否具有特定的條件。然而,在分析中包含不相關(guān)的特征可能會(huì)導(dǎo)致模型過(guò)度擬合,從而在呈現(xiàn)新數(shù)據(jù)集時(shí)降低其準(zhǔn)確性。這強(qiáng)調(diào)了擁有一個(gè)能夠代表總體的訓(xùn)練數(shù)據(jù)集的重要性。數(shù)據(jù)集的質(zhì)量對(duì)于最終ML模型的質(zhì)量至關(guān)重要。盡管ML算法可以使用小數(shù)據(jù)集或大數(shù)據(jù)集進(jìn)行訓(xùn)練,但大數(shù)據(jù)集可以最大限度地提高訓(xùn)練算法的內(nèi)部和外部有效性,降低過(guò)度擬合的風(fēng)險(xiǎn)。正確模型的選擇通常取決于操作員的專業(yè)知識(shí)、數(shù)據(jù)集的性質(zhì)和最終人工智能系統(tǒng)的目的。

3 人工智能在心血管超聲的應(yīng)用

心血管成像領(lǐng)域,包括超聲心動(dòng)圖、心臟計(jì)算機(jī)斷層掃描、心臟磁共振成像和核成像,具有復(fù)雜的成像技術(shù)和高容量的成像數(shù)據(jù),處于精準(zhǔn)心臟病學(xué)革命的前沿。然而,在基于AI的臨床轉(zhuǎn)化方法中,心血管成像一直落后于腫瘤學(xué)等其他領(lǐng)域。人工智能在超聲心動(dòng)圖中的應(yīng)用包括自動(dòng)心室定量和射血分?jǐn)?shù)計(jì)算、應(yīng)變測(cè)量和瓣膜形態(tài)及功能評(píng)估以及ML在心臟疾病自動(dòng)診斷中的應(yīng)用。

3.1 心室定量和EF自動(dòng)化。

自動(dòng)心室量化和EF計(jì)算的算法旨在提供準(zhǔn)確、快速和可重復(fù)的心尖視圖分類、解剖標(biāo)志檢測(cè)、心室壁分割和心內(nèi)膜跟蹤。有研究[6]比較了AI軟件自動(dòng)測(cè)量(AutoEF)和手工追蹤雙平面Simpson法測(cè)量左室EF的準(zhǔn)確性,并與心臟MRI進(jìn)行了比較。結(jié)果表明AutoEF與手動(dòng)雙平面Simpson法測(cè)得的EF相關(guān)性較好,且與MRI相關(guān)性良好,但AutoEF低估了左室舒張末期容積(EDV)和收縮期末期容積(ESV)。此外,在不同切面,測(cè)量的準(zhǔn)確性存在差異,以胸骨旁長(zhǎng)軸切面的準(zhǔn)確性最高,達(dá)96%,而在心尖切面時(shí)整體精度降低(84%)。腔室定量和左室EF測(cè)量的中位數(shù)絕對(duì)偏差在15%~17%,其中ESV的絕對(duì)偏差最小;左房容積和左室EDV被高估。

3.2 心肌運(yùn)動(dòng)和應(yīng)變測(cè)量。

Kusunose等[7]研究發(fā)現(xiàn)與傳統(tǒng)二維超聲心動(dòng)圖相比,利用深度卷積神經(jīng)網(wǎng)絡(luò)可更好的檢測(cè)區(qū)域壁運(yùn)動(dòng)異常并區(qū)分冠狀動(dòng)脈梗死區(qū)域。Cikes等[8]利用復(fù)雜超聲心動(dòng)圖數(shù)據(jù)(整個(gè)心動(dòng)周期的左室容積和變形數(shù)據(jù),而不是單個(gè)數(shù)據(jù)點(diǎn))和臨床參數(shù)的ML算法識(shí)別心衰并對(duì)心臟再同步化治療的反應(yīng)進(jìn)行評(píng)估,證實(shí)通過(guò)整合臨床參數(shù)和全心周期成像數(shù)據(jù),無(wú)監(jiān)督的ML可以為表型異質(zhì)性心力衰竭隊(duì)列提供一個(gè)有臨床意義的分類,并可能有助于優(yōu)化特定治療的反應(yīng)率。另有研究證實(shí)[9-10],ML算法有助于區(qū)分縮窄性心包炎、限制性心肌病以及肥厚性心肌的重塑。Zhang等[11]采用AI軟件和手工勾畫對(duì)左室心肌的縱向應(yīng)變進(jìn)行了比較研究。發(fā)現(xiàn)AI自動(dòng)測(cè)量的心肌全局縱向應(yīng)變與手動(dòng)應(yīng)變變化最小(絕對(duì)值為1.4%~1.6%)。

3.3 心臟瓣膜評(píng)估。

有學(xué)者[12]采用AI軟件對(duì)二尖瓣幾何形狀進(jìn)行測(cè)量,測(cè)量參數(shù)包括二尖瓣環(huán)面積、瓣環(huán)高度和寬度、瓣葉連合間距、前后葉長(zhǎng)度等。發(fā)現(xiàn)相對(duì)于常規(guī)超聲心動(dòng)圖,所有評(píng)估的成像參數(shù)均獲得了更好的觀察者間一致性,而且所花費(fèi)的時(shí)間明顯較少。Prihadi等[13]研究證實(shí),經(jīng)食管超聲心動(dòng)圖AI軟件能夠精確地對(duì)主動(dòng)脈瓣結(jié)構(gòu)以及冠狀動(dòng)脈開口進(jìn)行測(cè)量和定位,且與多層螺旋CT的測(cè)量結(jié)果具有良好的相關(guān)性。

4 展望

在海量醫(yī)學(xué)信息和影像數(shù)字化日益積累的現(xiàn)代醫(yī)學(xué)時(shí)代,AI和ML為疾病診斷和風(fēng)險(xiǎn)預(yù)測(cè)等問(wèn)題提供了新的解決方案。通過(guò)AI對(duì)超聲心動(dòng)圖數(shù)據(jù)進(jìn)行預(yù)測(cè)、建模和精確分析,可以幫助超聲醫(yī)師快速、準(zhǔn)確地處理大量心臟超聲影像學(xué)數(shù)據(jù),既有利于應(yīng)對(duì)當(dāng)前醫(yī)療信息數(shù)量的急劇增長(zhǎng),又有利于提高處理數(shù)據(jù)信息的能力。未來(lái),針對(duì)AI的研究應(yīng)關(guān)注超聲圖像數(shù)據(jù)特征定義及其提取方法的標(biāo)準(zhǔn)化,以確保可推廣性和可再現(xiàn)性,促進(jìn)AI向更加個(gè)性化的醫(yī)療模式轉(zhuǎn)變。此外,AI系統(tǒng)與遠(yuǎn)程醫(yī)療等軟件的集成,將使智能心臟超聲診斷系統(tǒng)滲透到資源消耗負(fù)擔(dān)最繁重的地區(qū),提高經(jīng)濟(jì)效益。

參考文獻(xiàn)

[1]Oikonomou EK,Siddique M,Antoniades C.Artificial intelligence in medical imaging:A radiomic guide to precision phenotyping of cardiovascular disease[J].Cardiovasc Res,2020,Feb 24;cvaa021.

[2]Dey D,Slomka PJ,Leeson P,et al.Artificial Intelligence in Cardiovascular Imaging:JACC State-of-the-Art Review[J].J Am Coll Cardiol,2019,73(11):1317-1335.

[3]Tran BX,Latkin CA,Vu GT,et al.The Current Research Landscape of the Application of Artificial Intelligence in Managing Cerebrovascular and Heart Diseases:A Bibliometric and Content Analysis[J].Int J Environ Res Public Health,2019,16(15):2699.

[4]Gandhi S,Mosleh W,Shen J,et al.Automation,machine learning,and artificial intelligence in echocardiography:A brave new world[J].Echocardiography,2018,35(9):1402-1418.

[5]Alsharqi M,Woodward WJ,Mumith JA,et al.Artificial intelligence and echocardiography[J].Echo Res Pract,2018,5(4):R115-R125.

[6]Xu B,KocyigitD,Grimm R,et al.Applications of artificial intelligence in multimodality cardiovascular imaging:A state-of-theart review[J].Prog Cardiovasc Dis,2020,19;S0033-0620(20)30060-8.

[7]Kusunose K,Abe T,Haga A,et al.A Deep Learning Approach for Assessment of Regional Wall Motion Abnormality From Echocardiographic Images[J].JACC Cardiovasc Imaging,2020,13(2 Pt 1):374-381.

[8]Cikes M,Sanchez-Martinez S,Claggett B,et al.Machine learningbased phenogrouping in heart failure to identify responders to cardiac resynchronization therapy[J].Eur J Heart Fail,2019,21(1):74-85.

[9]Narula S,Shameer K,Salem Omar AM,et al.Machine-Learning Algorithms to Automate Morphological and Functional Assessments in 2D Echocardiography[J].J Am Coll Cardiol,2016,68(21):2287-2295.

[10]Sengupta PP,Huang YM,Bansal M,et al.Cognitive machine-learning algorithm for cardiac imaging:a pilot study for differentiating constrictive pericarditis from restrictive cardiomyopathy[J].Circ Cardiovasc Imaging 2016,9(6):e004330.

[11]Zhang J,Gajjala S,Agrawal P,et al.Fully automated echocardiogram interpretation in clinical practice[J].Circulation,2018,138(16):1623-1635.

卷積神經(jīng)網(wǎng)絡(luò)的定義范文第5篇

關(guān)鍵詞:語(yǔ)義標(biāo)記;三維人臉;網(wǎng)格標(biāo)記;隨機(jī)森林;正方形切平面描述符

DOIDOI:10.11907/rjdk.171139

中圖分類號(hào):TP317.4

文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2017)006-0189-05

0 引言

在計(jì)算機(jī)視覺與圖像領(lǐng)域,對(duì)于二維圖像人臉的研究(包括人臉識(shí)別、人臉檢測(cè)、人臉特征點(diǎn)標(biāo)記等)非常多,并且取得了很大進(jìn)展。特別是近幾年,隨著深度學(xué)習(xí)算法的應(yīng)用,對(duì)于二維人臉的研究有了極大突破[1]。然而,相對(duì)于二維人臉,人們對(duì)三維人臉研究較少。三維人臉的研究是以人臉的三維數(shù)據(jù)為基礎(chǔ),結(jié)合計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué),充分利用三維人臉的深度信息和其它幾何信息,解決和克服現(xiàn)有二維人臉研究中面臨的光照、姿態(tài)、表情等問(wèn)題[3]。三維人臉模型標(biāo)記與分割是將三維人臉網(wǎng)格模型上的頂點(diǎn)進(jìn)行分類,將人臉劃分為幾個(gè)區(qū)域,例如眉毛、眼睛、鼻子、嘴等。對(duì)這些區(qū)域的標(biāo)記與分割對(duì)三維人臉重建、特征點(diǎn)定位和表情動(dòng)畫等方面的研究都起著重要作用。三維人臉的研究是模式識(shí)別和圖形學(xué)領(lǐng)域活躍且極具潛力的研究方向之一,在影視、游戲動(dòng)畫、人臉識(shí)別、虛擬現(xiàn)實(shí)、人機(jī)交互等方面都有著廣泛應(yīng)用[2-3]。

目前,許多對(duì)三維人臉?lè)矫娴难芯浚ㄈS人臉重建、識(shí)別與跟蹤、姿態(tài)估計(jì)及特征點(diǎn)標(biāo)記等,都是基于深度圖的方法[4-7]。Fanelli等[6-8]提出一種方法,將從深度數(shù)據(jù)估算人臉姿態(tài)表達(dá)為一個(gè)回歸問(wèn)題(Regression Problem),然后利用隨機(jī)森林算法解決該問(wèn)題,完成一個(gè)簡(jiǎn)單深度特征映射到三維人臉特征點(diǎn)坐標(biāo)、人臉旋轉(zhuǎn)角度等實(shí)值參數(shù)的學(xué)習(xí)。通過(guò)訓(xùn)練數(shù)據(jù)集建立隨機(jī)森林,該數(shù)據(jù)集包括通過(guò)渲染隨機(jī)生成姿態(tài)的三維形變模型得到的5萬(wàn)張640*480深度圖像。在實(shí)驗(yàn)部分,對(duì)Fanelli等提出的從深度圖中提取特征的方法與本文的特征提取方法進(jìn)行了對(duì)比。與文獻(xiàn)[6]中的方法相比,Papazov[9]提出了一個(gè)更為復(fù)雜的三角形表面patch特征,該特征是從深度圖重建成的三維點(diǎn)云中計(jì)算獲得的,主要包括兩部分:線下測(cè)試和線上測(cè)試。將三角形表面patch(TSP)描述符利用快速最近鄰算法(FLANN)從訓(xùn)練數(shù)據(jù)中尋找最相似的表面patches。

在計(jì)算機(jī)圖形學(xué)領(lǐng)域,網(wǎng)格理解在建立和處理三維模型中起著重要作用。為了有效地理解一個(gè)網(wǎng)格,網(wǎng)格標(biāo)記是關(guān)鍵步驟,它用于鑒定網(wǎng)格上的每個(gè)三角形屬于哪個(gè)部分,這在網(wǎng)格編輯、建模和變形方面都有著重要應(yīng)用。Shapira等[10]利用形狀直徑函數(shù)作為分割三維模型的一個(gè)信號(hào),通過(guò)對(duì)該信號(hào)的計(jì)算,定義一個(gè)上下文感知的距離測(cè)量,并且發(fā)現(xiàn)眾多目標(biāo)之間的部分相似性;隨后,Sidi等[11]提出一個(gè)半監(jiān)督的聯(lián)合分割方法,利用一個(gè)預(yù)定義的特征集實(shí)現(xiàn)對(duì)目標(biāo)的預(yù)先分割,然后將預(yù)先做好的分割嵌入到一個(gè)普通空間,通過(guò)使用擴(kuò)散映射獲得最終的對(duì)網(wǎng)格集的聯(lián)合分割。網(wǎng)格標(biāo)記的一個(gè)關(guān)鍵問(wèn)題是建立強(qiáng)大的特征,從而提高各類網(wǎng)格模型標(biāo)記結(jié)果的準(zhǔn)確性,增加泛化能力。為了解決該問(wèn)題,Kalogerakis等[12]提出采用一種基于條件隨機(jī)場(chǎng)算法的方法來(lái)標(biāo)記網(wǎng)格。通過(guò)對(duì)已標(biāo)記的網(wǎng)格進(jìn)行訓(xùn)練,成功地學(xué)習(xí)了不同類型的分割任務(wù);Xie等[13]提出一種三維圖形快速分割與標(biāo)記的方法,用一系列特征描述法和極端學(xué)習(xí)器來(lái)訓(xùn)練一個(gè)網(wǎng)格標(biāo)記分類的神經(jīng)網(wǎng)絡(luò);Guo等[14]提出用深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)從一個(gè)大的聯(lián)合幾何特征中學(xué)習(xí)網(wǎng)格表示方式。這個(gè)大的聯(lián)合幾何特征首先被提取出來(lái)表示每個(gè)網(wǎng)格三角形,利用卷積神經(jīng)網(wǎng)絡(luò)的卷積特征,將這些特征描述符重新組織成二維特征矩陣,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練與學(xué)習(xí)。

本文提出一種新的幾何特征描述符(正方形切平面描述符)來(lái)表示人臉模型上的頂點(diǎn)特征,利用隨機(jī)森林算法對(duì)三維人臉模型頂點(diǎn)進(jìn)行訓(xùn)練,實(shí)現(xiàn)對(duì)人臉模型上頂點(diǎn)的分類(屬于鼻子或是眼睛區(qū)域等),從而實(shí)現(xiàn)三維人臉模型的區(qū)域標(biāo)記。這種新描述符并非從深度圖提取的簡(jiǎn)單矩形區(qū)域特征,而是直接從三維人臉模型計(jì)算獲得,在人臉的姿勢(shì)、尺寸、分辨率的改變上具有一定魯棒性。因此,訓(xùn)練過(guò)程是在三維人臉模型上執(zhí)行的,這種數(shù)據(jù)相對(duì)于真實(shí)的深度圖數(shù)據(jù)更容易獲取(例如在文獻(xiàn)[6]中使用的訓(xùn)練數(shù)據(jù))。

1 特征描述符與三維人臉區(qū)域分割

1.1 正方形切平面描述符

從一個(gè)三維人臉模型M的所有頂點(diǎn)上隨機(jī)選取一個(gè)種子點(diǎn)P,根據(jù)三維人臉模型的幾何結(jié)構(gòu),計(jì)算該種子點(diǎn)的法向量,此時(shí)根據(jù)一點(diǎn)和法向量即可確定一個(gè)切平面。確定正方形的邊長(zhǎng)L和正方形的方向。正方形的方向(正方形局部坐標(biāo)系)是根據(jù)全局坐標(biāo)系下建立的正方形,通過(guò)法向量轉(zhuǎn)換而成。建立正方形局部坐標(biāo)系,以便于計(jì)算三維人臉上的點(diǎn)到正方形的投影距離,減少程序運(yùn)行時(shí)間,從而可以確定一個(gè)正方形切平面塊S。在這種情況下,根據(jù)正方形切平面塊S,可以計(jì)算出一個(gè)簡(jiǎn)單且具有魯棒性的幾何描述符V。將正方形邊長(zhǎng)分成K等份,正方形則細(xì)分為K2個(gè)小正方形,如圖1(a)所示。模型M上的所有點(diǎn)向正方形切平面塊上投影,如果投影點(diǎn)在正方形內(nèi),此點(diǎn)則肯定在K2個(gè)小正方形中的某一個(gè)正方形內(nèi),稱該點(diǎn)屬于該小正方形或者稱小正方形包含該點(diǎn)。每個(gè)小正方形的描述符是其包含所有點(diǎn)投影距離的平均值??紤]到人臉模型的幾何特征,有些人臉部分存在于正方形上面,有些部分則存在于正方形下面,因此每個(gè)點(diǎn)的投影距離有正負(fù)之分。整個(gè)正方形切平面塊的描述符V是所有小正方形描述符的簡(jiǎn)單串聯(lián)。在實(shí)驗(yàn)部分,本文將對(duì)邊長(zhǎng)L和劃分的小正方形個(gè)數(shù)K2對(duì)分類的準(zhǔn)確率進(jìn)行對(duì)比研究。

使用每個(gè)小正方形包含所有點(diǎn)的平均投影距離作為描述符,使得該描述符對(duì)噪聲、數(shù)據(jù)分解和分辨率上的變化具有魯棒性,這在實(shí)驗(yàn)部分有所體現(xiàn)。許多三維幾何特征已經(jīng)在一些文章中被提出,包括Spin Images(SI)[15]、3D shape context (SC)[16]、 SHOT[17]和MeshHOG[18-19]。這些描述法都根據(jù)局部坐標(biāo)系定義并且依賴于大量的平面法向量,使噪聲數(shù)據(jù)對(duì)結(jié)果產(chǎn)生一定影響。和以上描述法相比,本文描述符取平均投影距離,并且正方形取的足夠大,使描述法更加簡(jiǎn)單、有效且具有魯棒性。除三維幾何特征外,許多文章也對(duì)三維模型投影生成的深度圖進(jìn)行了特征選取和處理。例如,F(xiàn)anelli等[6-8]在深度圖中選取patch,然后在patch中隨機(jī)選取兩個(gè)矩形框F1、F2,如圖2所示。以像素點(diǎn)的深度值和幾何法向量的X、Y、Z值作為隨機(jī)森林的4個(gè)特征通道,F(xiàn)1和F2中所有像素點(diǎn)某個(gè)特征通道平均值的差值作為隨機(jī)森林每棵樹節(jié)點(diǎn)的二元測(cè)試。二元測(cè)試定義為:

本文在實(shí)驗(yàn)部分對(duì)上述特征選取方式與本文提出的正方形描述符在三維人臉區(qū)域標(biāo)記上的結(jié)果進(jìn)行了比較。

1.2 數(shù)據(jù)庫(kù)與人臉區(qū)域分割

訓(xùn)練階段的正方形切平面描述符均取自于高分辨率的人臉網(wǎng)格模型,這些訓(xùn)練模型由Basel Face Model (BFM)[20]生成。BFM是一個(gè)公開、可獲得的基于PCA的三維形變模型,由200個(gè)人臉對(duì)象的高分辨率三維掃描創(chuàng)建而成。通過(guò)從一個(gè)正態(tài)分布取樣的PCA系數(shù),BFM能被用來(lái)生成任意數(shù)量的隨機(jī)網(wǎng)格人臉。此外,在所有生成的人臉網(wǎng)格模型上,對(duì)應(yīng)頂點(diǎn)的索引都是一樣的。例如,在所有訓(xùn)練模型上,在鼻尖的頂點(diǎn)有相同的索引數(shù)字,這將帶來(lái)諸多便利。對(duì)于訓(xùn)練模型,只需在任意一個(gè)BFM人臉模型上進(jìn)行一次人臉區(qū)域的手動(dòng)標(biāo)記,即可知道每個(gè)訓(xùn)練模型要分割的區(qū)域上各點(diǎn)的索引,如每個(gè)模型鼻子區(qū)域的所有頂點(diǎn)索引都是一樣的。

對(duì)訓(xùn)練模型進(jìn)行手動(dòng)分割標(biāo)記(只需分割標(biāo)記一次),將一個(gè)三維人臉模型分割為10個(gè)區(qū)域:左眉毛、右眉毛、左眼睛、右眼睛、左臉頰、右臉頰、鼻子、上嘴唇、下嘴唇、下巴,剩下部分屬于其它區(qū)域。如圖3所示,對(duì)三維人臉模型進(jìn)行區(qū)域分割,不同的分割區(qū)域用不同顏色進(jìn)行標(biāo)記,每個(gè)區(qū)域包含很多三維人臉模型頂點(diǎn)。由于很多三維人臉模型額頭部分包含的頂點(diǎn)相對(duì)較少,特征信息也相對(duì)較少,所以將額頭區(qū)域劃分至其它區(qū)域。人臉模型的每個(gè)區(qū)域包含的所有頂點(diǎn)屬于同一類,根據(jù)上述BFM數(shù)據(jù)庫(kù)特點(diǎn)可知,數(shù)據(jù)庫(kù)中任何一個(gè)人臉模型每個(gè)區(qū)域包含的所有頂點(diǎn)索引都是一致的。

2 隨機(jī)森林算法分類標(biāo)記人臉區(qū)域

2.1 隨機(jī)森林算法

分類回歸樹[21]是一個(gè)強(qiáng)大的工具,能夠映射復(fù)雜的輸入空間到離散或者分段連續(xù)的輸出空間。一棵樹通過(guò)分裂原始問(wèn)題到更簡(jiǎn)單、可解決的預(yù)測(cè)以實(shí)現(xiàn)高度非線性映射。樹上的每一個(gè)節(jié)點(diǎn)包含一個(gè)測(cè)試,測(cè)試的結(jié)果指導(dǎo)數(shù)據(jù)樣本將分到左子樹或是右子樹。在訓(xùn)練期間,這些測(cè)試被選擇用來(lái)將訓(xùn)練數(shù)據(jù)分組,這些分組對(duì)應(yīng)著實(shí)現(xiàn)很好預(yù)測(cè)的簡(jiǎn)單模型。這些模型是由訓(xùn)練時(shí)到達(dá)葉子節(jié)點(diǎn)的被標(biāo)記的數(shù)據(jù)計(jì)算而來(lái),并且存儲(chǔ)于葉子節(jié)點(diǎn)。Breiman[22]指出雖然標(biāo)準(zhǔn)的決策樹單獨(dú)使用會(huì)產(chǎn)生過(guò)擬合,但許多隨機(jī)被訓(xùn)練的樹有很強(qiáng)的泛化能力。隨機(jī)被訓(xùn)練樹的隨機(jī)性包括兩方面,一是用來(lái)訓(xùn)練每棵樹的訓(xùn)練樣本是隨機(jī)選取的,二是每棵樹上的二元測(cè)試是從使每個(gè)節(jié)點(diǎn)最優(yōu)的測(cè)試集中隨機(jī)選取的。這些樹的總和稱為隨機(jī)森林。本文將三維人臉模型區(qū)域的標(biāo)記與分割描述為一個(gè)分類問(wèn)題,并利用隨機(jī)森林算法來(lái)有效地解決它。

2.2 訓(xùn)練

訓(xùn)練數(shù)據(jù)集是由BFM生成的50個(gè)三維人臉模型。從每個(gè)模型上隨機(jī)取n=10 000個(gè)頂點(diǎn)樣本,每個(gè)頂點(diǎn)對(duì)應(yīng)一個(gè)正方形切平面塊。本文實(shí)驗(yàn)中森林由100棵樹建立而成,森林里每個(gè)樹由隨機(jī)選取的一系列塊(patch){Pi=Vfi,θi}構(gòu)建而成。Vfi是從每個(gè)樣本提取的特征,即正方形切平面描述符,f是特征通道的個(gè)數(shù),正方形劃分為K2個(gè)小正方形,f=K2。實(shí)值θi是這個(gè)樣本所屬的類別,例如鼻子區(qū)域類別設(shè)為數(shù)字1,那么鼻子區(qū)域內(nèi)的頂點(diǎn)樣本所對(duì)應(yīng)的θ=1。建立決策樹時(shí),在每個(gè)非葉子節(jié)點(diǎn)上隨機(jī)生成一系列可能的二元測(cè)試,該二元測(cè)試定義為:

這里的Pi∈{L,R}是到達(dá)左子樹或右子樹節(jié)點(diǎn)上的樣本集合,wi是到左子樹或右子樹節(jié)點(diǎn)的樣本數(shù)目和到父節(jié)點(diǎn)樣本數(shù)目的比例,例如:wi=|Pi||P|。

2.3 測(cè)試

通過(guò)BFM生成55個(gè)三維人臉模型,其中50個(gè)人臉模型作為訓(xùn)練數(shù)據(jù),剩下5個(gè)人臉模型作為測(cè)試數(shù)據(jù)。測(cè)試數(shù)據(jù)依然取10 000個(gè)樣本點(diǎn),并且知道每個(gè)樣本點(diǎn)屬于哪一個(gè)區(qū)域,通過(guò)測(cè)試數(shù)據(jù)計(jì)算三維人臉模型網(wǎng)格點(diǎn)分類的準(zhǔn)確率。為了測(cè)試提出方法的有效性,研究過(guò)程中從網(wǎng)上下載獲取了其它三維人臉模型,對(duì)人臉模型上的所有網(wǎng)格點(diǎn)通過(guò)之前訓(xùn)練好的隨機(jī)森林模型進(jìn)行分類。因?yàn)槠渌四樐P团cBFM生成人臉模型的尺寸、坐標(biāo)單位等不一致,所以本研究對(duì)這些測(cè)試模型進(jìn)行了后期處理,對(duì)正方形的邊長(zhǎng)按照模型尺寸的比例M行選取。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

本文三維人臉標(biāo)記與分割所用的訓(xùn)練和測(cè)試三維人臉模型由BFM生成,50個(gè)模型作為訓(xùn)練數(shù)據(jù),5個(gè)模型作為測(cè)試數(shù)據(jù)。每個(gè)模型包含53 490個(gè)頂點(diǎn)和106 466個(gè)三角形網(wǎng)格,每個(gè)訓(xùn)練模型選取10 000個(gè)頂點(diǎn)樣本。用C++和OpenGL、OpenCV等庫(kù)對(duì)三維人臉模型數(shù)據(jù)進(jìn)行采樣,得到每個(gè)樣本的正方形切平面描述符。在Matlab平臺(tái)下用隨機(jī)森林算法對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行可視化。

3.2 實(shí)驗(yàn)結(jié)果

利用已訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)集上三維人臉模型的所有頂點(diǎn)進(jìn)行分類,計(jì)算頂點(diǎn)分類的準(zhǔn)確率。準(zhǔn)確率(Accuracy Rate)計(jì)算公式為:

準(zhǔn)確率=預(yù)測(cè)正確的頂點(diǎn)個(gè)數(shù)(m)人臉模型上所有頂點(diǎn)個(gè)數(shù)(N)

根據(jù)文獻(xiàn)[10]提出的類似描述符參數(shù)選取以及參數(shù)優(yōu)化策略,經(jīng)過(guò)多次實(shí)驗(yàn),研究發(fā)現(xiàn)正方形邊長(zhǎng)L和正方形劃分的小正方形數(shù)目K2兩個(gè)參數(shù)的選取對(duì)頂點(diǎn)分類準(zhǔn)確率有著一定影響。實(shí)驗(yàn)中選取參數(shù)L∈{60,80,100}、參數(shù)K2∈{9,16,25,36}進(jìn)行對(duì)比,具體對(duì)比結(jié)果如表1、表2所示(其中表1中K2為16,表2中L為80mm)。

根據(jù)上面兩個(gè)表格,可以明顯得出,L=80mm,K2=25時(shí)頂點(diǎn)分類準(zhǔn)確率最高。接下來(lái)對(duì)L=80mm,K2=25情況下的三維人臉模型區(qū)域進(jìn)行標(biāo)記,可視化結(jié)果如圖4所示,上邊是原始三維模型數(shù)據(jù),下邊是標(biāo)記后的結(jié)果。(a)、(b)模型標(biāo)記圖是由BFM生成的三維人臉模型區(qū)域標(biāo)記的結(jié)果,模型有53 490個(gè)頂點(diǎn)。為了驗(yàn)證本文方法的一般性和對(duì)分辨率具有不變性,(c)~(e)模型標(biāo)記圖是非BFM生成的其它三維人臉模型的標(biāo)記結(jié)果,模型約有5 000個(gè)頂點(diǎn)。以上所有圖都是對(duì)三維人臉模型所有頂點(diǎn)進(jìn)行標(biāo)記的結(jié)果。

文獻(xiàn)[6]~[8]中提到的基于深度圖的特征提取方法(見圖1),同樣利用隨機(jī)森林算法進(jìn)行了實(shí)驗(yàn),并與本文的正方形特征描述符的實(shí)驗(yàn)結(jié)果進(jìn)行了比較,如表3所示。將深度圖投影到96*96大小,深度圖patch所取邊長(zhǎng)c深度圖大小的比例和正方形所取邊長(zhǎng)與模型大小的比例相等。

由表3可得,對(duì)三維人臉模型頂點(diǎn)級(jí)分類和區(qū)域標(biāo)記問(wèn)題,本文提出的特征描述符的標(biāo)記結(jié)果優(yōu)于深度圖patch特征選取方法。此外,由于深度圖的一些局限性,直接對(duì)三維模型處理要比對(duì)深度圖處理更有優(yōu)勢(shì)。

3.3 結(jié)果討論與分析

圖4中5個(gè)模型頂點(diǎn)數(shù)目、三角形面數(shù)目和頭部姿勢(shì)都不一樣,驗(yàn)證了本文所提方法對(duì)于姿勢(shì)、模型尺寸和模型分辨率具有較好的魯棒性。并且其對(duì)不同的眉毛、眼睛、臉頰區(qū)域也能進(jìn)行很好的區(qū)分,將左右眉毛、左右眼睛和左右臉頰用同一顏色、不同符號(hào)進(jìn)行顯示。本文提出的描述符和直接對(duì)三維模型處理的方法,與在深度圖上選取特征方法相比具有一定優(yōu)勢(shì)。由于手動(dòng)分割人臉區(qū)域時(shí),很難避免分割粗糙,區(qū)域交界處有的部分頂點(diǎn)沒有包含進(jìn)去,因此在區(qū)域交界處頂點(diǎn)的分類誤差會(huì)相對(duì)略大,特別是嘴唇之間的部分。另外,三維人臉模型中額頭和下巴的頂點(diǎn)和特征相對(duì)較少,所以相較于其它區(qū)域,這兩個(gè)區(qū)域的頂點(diǎn)分類誤差也會(huì)略大。

4 結(jié)語(yǔ)

本文提出一種基于正方形切平面描述符的三維人臉區(qū)域標(biāo)記方法。將這種幾何特征描述符作為選取樣本的特征,通過(guò)隨機(jī)森林算法,對(duì)三維人臉模型進(jìn)行區(qū)域分類和標(biāo)記。該方法可有效識(shí)別出三維人臉模型的眉毛、眼睛、鼻子、嘴巴和臉頰等區(qū)域,這對(duì)三維人臉特征點(diǎn)的定位及其它三維人臉?lè)矫娴难芯慷季哂兄匾饬x。本文提出的方法對(duì)三維人臉模型頭部姿態(tài)、模型尺寸、模型分辨率具有較好的魯棒性。和基于深度圖的方法相比,本文提出的方法具有更好的泛化能力,是一種行之有效的特征提取方法。

然而,手動(dòng)分割人臉區(qū)域的做法在一定程度上略顯粗糙,特征選取速度亦仍需優(yōu)化。同時(shí),本文僅對(duì)三維模型上所有頂點(diǎn)所屬區(qū)域進(jìn)行標(biāo)記,沒有將標(biāo)記后的結(jié)果結(jié)合三維分割算法進(jìn)行區(qū)域分割優(yōu)化。如何對(duì)相關(guān)算法加以改進(jìn),將是下一步需要解決的問(wèn)題。

參考文獻(xiàn):

[1]SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[J]. Computer Vision & Pattern Recognition,2013,9(4):3476-3483.

[2]CAO C, WENG Y, LIN S, et al. 3D shape regression for real-time facial animation[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.

[3]CAO C, HOU Q, ZHOU K. Displaced dynamic expression regression for real-time facial tracking and animation[J]. Acm Transactions on Graphics, 2014, 33(4):1-10.

[4]SEEMAN E, NICKEL K, STIEFELHAGEN R. Head pose estimation using stereo vision for human-robot interaction[C].ICAFGR, 2004 Sixth IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 2004: 626-631.

[5]BREITENSTEIN M D, KUETTEL D, WEISE T, et al. Real-time face pose estimation from single range images[C]. Proc.IEEE put.Vis.Pattern Recognit, 2008:1-8.

[6]FANELLI G, GALL J, GOOL L V. Real time head pose estimation with random regression forests[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2011:617-624.

[7]FANELLI G, WEISE T, GALL J, et al. Real time head pose estimation from consumer depth cameras[C].Pattern Recognition Dagm Symposium, Frankfurt/main, Germany, 2011:101-110.

[8]FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis[J]. International Journal of Computer Vision, 2013, 101(3):437-458.

[9]PAPAZOV C, MARKS T K, JONES M. Real-time 3D head pose and facial landmark estimation from depth images using triangular surface patch features[C].IEEE Conference on Computer Vision and Pattern Recognition. 2015:4722-4730.

[10]SHAPIRA L, SHALOM S, SHAMIR A, et al. Contextual part analogies in 3D objects[J]. International Journal of Computer Vision, 2010, 89(2):309-326.

[11]SIDI O, KAICK O V, KLEIMAN Y, et al. Unsupervised co-segmentation of a set of shapes via descriptor-space spectral clustering[C].SIGGRAPH Asia Conference. 2011.

[12]KALOGERAKIS E, HERTZMANN A, SINGH K. Learning 3D mesh segmentation and labeling[J]. Acm Transactions on Graphics, 2010, 29(4):157-166.

[13]XIE Z, XU K, LIU L, et al. 3D shape segmentation and labeling via extreme learning machine[J]. Computer Graphics Forum, 2014, 33(5):85-95.

[14]GUO K, ZOU D, CHEN X. 3D mesh labeling via deep convolutional neural networks[J]. Acm Transactions on Graphics, 2015, 35(1):1-12.

[15]JOHNSON A E, HEBERT M. Using spin images for efficient object recognition in cluttered 3d scenes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1999, 21(5):433-449.

[16]FROME A, HUBER D, KOLLURI R, et al. Recognizing objects in range data using regional point descriptors[J]. Lecture Notes in Computer Science, 2004.

[17]TOMBARI F, SALTI S, STEFANO L D. Unique signatures of histograms for local surface description[C].European Conference on Computer Vision Conference on Computer Vision. Springer-Verlag, 2010:356-369.

[18]ZAHARESCU A, BOYER E, VARANASI K, et al. Surface feature detection and description with applications to mesh matching[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2009:373-380.

[19]ZAHARESCU A, BOYER E, HORAUD R. Keypoints and local descriptors of scalar functions on 2D manifolds[J]. International Journal of Computer Vision, 2012, 100(1):78-98.

[20]PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D face model for pose and illumination invariant face recognition[C].IEEE International Conference on Advanced Video & Signal Based Surveillance. IEEE Computer Society, 2009:296-301.

[21]BREIMAN, LEO. Classification and regression trees[M].Classification and regression trees /. Chapman & Hall/CRC, 1984:17-23.

[22]MITCHELL. Machine learning[M]. McGraw-Hill, 2003.