婷婷超碰在线在线看a片网站|中国黄色电影一级片现场直播|欧美色欧美另类少妇|日韩精品性爱亚洲一级性爱|五月天婷婷乱轮网站|久久嫩草91婷婷操在线|日日影院永久免费高清版|一级日韩,一级鸥美A级|日韩AV无码一区小说|精品一级黄色毛片

首頁 > 文章中心 > 計算機視覺研究方向

計算機視覺研究方向

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇計算機視覺研究方向范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

計算機視覺研究方向范文第1篇

在我國市場經(jīng)濟不斷發(fā)展的盛況下,我國科技發(fā)展水平也緊隨其后,成為世界上的科技強國之一。在計算機水平的不斷提高下,計算機視覺技術(shù)應(yīng)運而生。其中,計算機視覺技術(shù)被應(yīng)用與各個領(lǐng)域,并在各個領(lǐng)域都得到廣泛有效的應(yīng)用,比如軍事領(lǐng)域、醫(yī)療領(lǐng)域、工業(yè)領(lǐng)域等。本文針對計算機視覺技術(shù)在交通領(lǐng)域中的應(yīng)用進行分析。

【關(guān)鍵詞】計算機視覺 交通領(lǐng)域 探究

近年來,隨著科技水平的提高,計算機視覺技術(shù)逐漸被人們熟知并廣泛應(yīng)用。相較于其他傳感器來說,視覺能獲得更多的信息。因此,在我國交通領(lǐng)域中,也對計算機視覺技術(shù)進行研究完善,將計算機視覺技術(shù)應(yīng)用在交通領(lǐng)域各個方面中,并取得了顯著的成效。

1 計算機視覺的概述及基本體系結(jié)構(gòu)

1.1 計算機視覺概述

通過使用計算機和相關(guān)設(shè)備,對生物視覺進行模擬的方式,就是計算機視覺。對采集到的圖片或視頻進行相應(yīng)的技術(shù)處理,從而獲得相應(yīng)的三維信息場景,是計算機視覺的主要任務(wù)。

計算機視覺是一門學(xué)問,它就如何通過計算機和照相機的運用,使人們獲得被拍攝對象的數(shù)據(jù)與信息所需等問題進行研究。簡單的說,就是讓計算機通過人們給其安裝上的“大腦”和“眼睛”,對周圍環(huán)境進行感知。

計算機視覺是一門綜合性學(xué)科,在各個領(lǐng)域都有所作為,已經(jīng)吸引了各個領(lǐng)域的研究者對其研究。同時,計算機視覺也是科學(xué)領(lǐng)域中一個具有重要挑戰(zhàn)性的研究。

1.2 計算機視覺領(lǐng)域基本體系結(jié)構(gòu)

提出第一個較為完善的視覺系統(tǒng)框架的是Marr,他從信息處理系統(tǒng)角度出發(fā),結(jié)合圖像處理、心理物理學(xué)等多領(lǐng)域的研究成果,提出被計算機視覺工作者基本接受的計算機視覺系統(tǒng)框架。在此基礎(chǔ)上,研究者們針對視覺系統(tǒng)框架的各個角度、各個階段、各個功能進行分析研究,得出了計算機視覺系統(tǒng)的基本體系結(jié)構(gòu),如圖1。

2 計算機視覺在交通領(lǐng)域的應(yīng)用

2.1 牌照識別

車輛的唯一身份是車輛牌照。在檢測違規(guī)車輛、稽查被盜車輛和管理停車場工作中,車輛牌照的有效識別與檢測具有重要的作用和應(yīng)用價值。然而在實際應(yīng)用工作中,雖然車牌識別技術(shù)相對成熟,但是由于受到拍攝角度、光照、天氣等因素的影響,車牌識別技術(shù)仍需改善。車牌定位技術(shù)、車牌字符識別技術(shù)和車牌字符分割技術(shù)是組成車牌識別技術(shù)的重要部分。

2.2 車輛檢測

目前,城市交通路口處紅綠燈的間隔時間是固定不變的,但是受交通路口的位置不同、時間不同的影響,每個交通路口的交通流量也是持續(xù)變化的。此外,對于某些交通區(qū)域來說,公共資源的配備,比如交通警察、交通車輛的數(shù)量是有限的。如果能根據(jù)計算機視覺技術(shù),對交通路口的不同時間、不同位置的交通情況進行分析計算,并對交通流量進行預(yù)測,有利于為交通警察縮短出警時間、為交通路口的紅綠燈根據(jù)實際情況設(shè)置動態(tài)變化等技術(shù)提供支持。

2.3 統(tǒng)計公交乘客人數(shù)

城市公共交通的核心內(nèi)容是城市公交調(diào)度問題,一個城市如何合理的解決公交調(diào)度問題,是緩解城市運力和運量矛盾,緩解城市交通緊張的有效措施。城市公交調(diào)度問題,為公交公司與乘客的平衡利益,為公交公司的經(jīng)濟利益和社會效益的提高做出了巨大的貢獻。由于在不同的地域、不同的時間,公交客流會存在不均衡性,高峰時段的公交乘客過多,平峰時段的公交乘客過少,造成了公交調(diào)度不均衡問題,使有限資源浪費嚴重。在計算機視覺智能公交系統(tǒng)中,自動乘客計數(shù)技術(shù)是其關(guān)鍵技術(shù)。自動乘客計數(shù)技術(shù),是對乘客上下車的時間和地點自動收集的最有效的技術(shù)之一。根據(jù)其收集到的數(shù)據(jù),從時間和地點兩方面對客流分析,為城市公交調(diào)度進行合理的安排。

2.4 對車道偏離程度和駕駛員工作狀態(tài)判斷

交通事故的發(fā)生率隨著車輛數(shù)量的增加而增加。引發(fā)交通事故的重要因素之一就是駕駛員疲勞駕駛。據(jù)相關(guān)數(shù)據(jù)顯示,因車道偏離導(dǎo)致的交通事故在40%以上。其中,駕駛員的疲勞駕駛就是導(dǎo)致車道偏離的主要原因。針對此種現(xiàn)象,為減少交通事故的發(fā)生,計算機視覺中車道偏離預(yù)警系統(tǒng)被研究開發(fā)并被廣泛應(yīng)用。針對駕駛員眨眼頻率,利用計算機視覺對駕駛員面部進行圖像處理和分析,再根據(jù)疲勞駕駛關(guān)注度與眨眼頻率的關(guān)系,對駕駛員的工作狀態(tài)進行判斷。此外,根據(jù)道路識別技術(shù),對車輛行駛狀態(tài)進行檢測,也是判斷駕駛員工作狀態(tài)的方法之一。這兩種方法,是目前基于計算機視覺的基礎(chǔ)上,檢測駕駛員疲勞狀態(tài)的有效方法。

2.5 路面破損檢測

最常見的路面損壞方式就是裂縫。利用計算機視覺,及時發(fā)現(xiàn)路面破損情況,并在其裂縫程度嚴重之前進行修補,有利于節(jié)省維護成本,也避免出現(xiàn)路面坍塌,車輛凹陷的情況發(fā)生。利用計算機視覺進行路面檢測,相較于之前人工視覺檢測相比,有效提高了視覺檢測的效率,增強了自動化程度,提高了安全性,為市民的出行安全帶來了更高保障。

3 結(jié)論

本文從計算機視覺的概述,及計算機視覺基本體系結(jié)構(gòu),和計算機視覺在交通領(lǐng)域中的應(yīng)用三面進行分析,可見計算機視覺在交通領(lǐng)域中的廣泛應(yīng)用,在交通領(lǐng)域中應(yīng)用的有效性、顯著性,以此可得計算機視覺在現(xiàn)展過程中的重要性。隨著計算機視覺技術(shù)的越來越成熟,交通領(lǐng)域的檢測管理一定會加嚴格,更加安全。

參考文獻

[1]段里仁.智能交通系境在我國道路空通管理中的應(yīng)用[J].北方工業(yè)時報,2015(06).

[2]王豐元.計算機視覺在建筑區(qū)間的應(yīng)用實例分析[J].河北電力學(xué)報,2015(04).

[3]李釗稱.主動測距技術(shù)在計算機數(shù)據(jù)分析中的作用探析[J].計算機應(yīng)用,2015(08).

[4]馬良紅.三維物體影像的攝取與分析[J].中國公路學(xué)報,2014(05).

[5]朱學(xué)君,沈睿.關(guān)于計算機視覺在交通領(lǐng)域中的探討[J].信息通信,2013(01):123.

[6]王大勇.關(guān)于計算機視覺在交通領(lǐng)域中的應(yīng)用分析[J].科技與企業(yè),2013(01):115.

作者簡介

夏棟(1988-),男,湖北省孝感市人。現(xiàn)為同濟大學(xué)軟件學(xué)院在讀碩士。研究方向為計算機視覺。

計算機視覺研究方向范文第2篇

摘要:研究基于計算機視覺的實時動態(tài)手勢識別技術(shù),并利用OpenCV計算機視覺庫在VS2010平臺上設(shè)計一個基于該技術(shù)在多媒體教學(xué)中PPT演示控制方面的應(yīng)用。首先,利用背景差分法進行手勢檢測,在背景更新的基礎(chǔ)上,通過背景差分圖和顏色直方圖的反投影圖來檢測運動手勢區(qū)域,可以達到較為滿意的實時運動手勢檢測效果;其次,采用基于顏色直方圖的粒子跟蹤算法進行手勢跟蹤,基本能滿足跟蹤的實時性;最后,在手勢識別階段,采用基于Hu不變矩的輪廓匹配算法,得到較好的手勢識別效果;使用六種手勢,來實現(xiàn)演示文稿中的控制應(yīng)用。

關(guān)鍵詞:計算機視覺;背景差分;粒子跟蹤;手勢識別;Hu矩

中圖分類號:TP391.41文獻標識碼:A

1引言

隨著計算機軟硬件技術(shù)的發(fā)展,人機交互已經(jīng)由過去的鼠標、鍵盤方式逐漸向更加靈活生動的語音、姿勢等新穎交互方式發(fā)展。由于基于視覺方式具有便捷和開銷低等優(yōu)點,因此,利用計算機視覺技術(shù)來使計算機理解用戶的命令,從而做出控制動作,這一領(lǐng)域的研究得到越來越多的重視。其中,人的手勢作為日常生活中最為廣泛使用的一種交流方式;因此,國內(nèi)外許多研究機構(gòu)開始對手勢識別技術(shù)進行研究,并已經(jīng)取得了一些階段性的成果。較早的有:Freeman和Roth等人提出的基于方向直方圖的手勢識別系統(tǒng);國內(nèi)的高文教授等人于1994年提出了一種靜態(tài)復(fù)雜背景手勢目標的捕獲與識別。經(jīng)過二三十年的發(fā)展,

人們對運動目標檢測及跟蹤進行了大量深入的研究:美國MIT實驗室通過提取左右手質(zhì)心的運動軌跡以及手勢形狀特征參數(shù),結(jié)合語法規(guī)則識別40個美國手語,準確率達到97%;另外,Microsoft Korea的HyeonKyu Lee,采用HMM的閾值模型,識別9種動態(tài)手勢命令,平均識別率高達98.19%;國內(nèi)的任海兵提出了基于DTW的手勢識別算法,該算法能準確識別12種手勢。

現(xiàn)在,基于視覺的手勢識別技術(shù)更多的是應(yīng)用在娛樂、游戲方面,比如微軟前段時間推出的Xbox360游戲機體的體感外設(shè)Kinect及多款相配套的體感游戲,玩家可以通過手勢在游戲中進行操作和互動,使得人機互動娛樂進入了一個新紀元。與此同時,還沒有比較成熟的手勢識別技術(shù)應(yīng)用在現(xiàn)代教學(xué)系統(tǒng)中。因此,本文的研究重點是基于視覺的實時手勢識別技術(shù)在多媒體教學(xué)演示控制中的應(yīng)用。在基于視覺的手勢識別研究中,需要解決的問題主要有兩個:一是實時檢測運動手勢的信息,二是識別運動手勢的信息并做出響應(yīng)。對運動手勢檢測,本文采用背景差分結(jié)合改進顏色直方圖特征的運動檢測方法[1];對運動手勢跟蹤,本文采用粒子濾波算法[2]結(jié)合改進顏色直方圖信息的方法;手勢識別階段,本文采用了基于Hu不變矩特征[3]的輪廓匹配算法[4];本文研究基于計算機視覺的手勢識別系統(tǒng),實現(xiàn)了在播放控制中運用手勢進行開始、翻頁、退出等功能,極大的提高了課堂教學(xué)的靈活性。

2手勢檢測

實時視頻圖像中的運動手勢檢測所需要完成的任務(wù)是:能夠快且準的檢測出手勢在實時圖像中的主要位置,并且能將位置所在的特定區(qū)域作為后續(xù)跟蹤、識別的感興趣區(qū)域。手勢檢測算法的好壞,直接影響整個系統(tǒng)的跟蹤以及識別的效果。

目前,運動目標檢測[5]的算法比較常用的有三種方法:光流法、幀間差分法和背景差分法。本文考慮實現(xiàn)環(huán)境為固定攝像頭采集實時視頻圖像,背景基本不動,因此采用背景差分結(jié)合改進顏色直方圖信息的運動檢測方法。

2.1背景差分法

本文研究中,選取攝像頭啟動后的前10幀圖像的平均作為最初的背景圖像,把以后的實時序列圖像當前幀和背景圖像相減,進行背景消去??梢缘玫?,運動手勢區(qū)域的像素點的差分值比較大,背景區(qū)域的像素點的差分值比較小。另外,由于真實場景中的背景會因光線等外部條件產(chǎn)生微小的變化,長期的誤差積累會造成最后得不到理想的手勢區(qū)域,因此背景需要進行實時更新,從而能及時反映當前幀的背景圖像,背景更新[6]的公式如下:

背景更新操作以后,對當前幀進行背景差分,大于閾值th1的圖像點即為運動手勢區(qū)域的點,并將得到的運動手勢區(qū)域圖像進行二值化操作,公式如下:

3手勢跟蹤

現(xiàn)在常用的一些跟蹤算法主要有:卡爾曼預(yù)測算法、粒子濾波算法、均值偏移算法以及Camshift跟蹤算法等??紤]到卡爾曼預(yù)測算法和均值偏移算法等都是線性跟蹤算法,不能很好的應(yīng)對目標運動的隨機性,本文采用了粒子濾波算法。

3.1粒子濾波算法原理

粒子濾波法是指通過用一組帶有權(quán)值的隨機樣本,以及基于這些樣本的估算來表示動態(tài)系統(tǒng)的后驗概率密度。當樣本很大的時候,這種估計就等同于后驗概率密度。這些樣本就稱為“粒子”。假設(shè)在t=0時刻每個粒子都有一個解,每個解與真實解都有一定的相似度,這個相似度可以表示為權(quán)重,隨著時間的增加,相似度越大的粒子權(quán)重越大,而相似度越小的粒子權(quán)重就越小,最后趨于0,從而找到真實解(如圖2)。

3.2基于改進顏色直方圖信息的粒子跟蹤

視頻圖像跟蹤方面,目標的運動模型主要表現(xiàn)為目標位置、速度隨時間改變的狀態(tài)轉(zhuǎn)移過程,目標的觀測模型主要表現(xiàn)為每幀圖像中運動目標的特征(如顏色、輪廓等)與真實目標的相似度的似然過程。在粒子濾波算法中,運動模型可以稱為粒子傳播或者粒子采樣,它是一種隨機過程[11]。粒子在經(jīng)過傳播以后,狀態(tài)會發(fā)生改變,但權(quán)值沒有跟著改變,這就需要系統(tǒng)的觀測模型對當前粒子的狀態(tài)進行計算從而更新粒子的權(quán)值。本文的研究中,觀測值由目標區(qū)域的顏色直方圖決定。

基于顏色直方圖信息的粒子濾波就是將圖像顏色特征的相似度作為粒子濾波算法要求解的后驗概率,利用巴氏距離(Bhattacharyya)來計算相似度,得到粒子的權(quán)重。巴氏系數(shù)[12]如公式(9):

4.2識別算法過程

本文研究中,首先建立手勢模板庫,然后通過實時提取手勢幀,經(jīng)過前面第2部分的結(jié)合改進顏色直方圖信息的手勢檢測,然后再經(jīng)過形態(tài)學(xué)處理之后,得到效果良好手勢區(qū)域的二值圖,再用輪廓提取及跟蹤來得到手勢的輪廓圖,然后計算其7Hu矩特征,最后運用歐氏距離將其與模板庫中定義的手勢進行特征匹配,完成手勢識別。

輪廓提取就是要掏空內(nèi)部的點:如果其八個相鄰的點都是黑色,則可以判定為內(nèi)部點,然后刪除改點。

輪廓跟蹤方法:首先找出輪廓中最左下方的點作為搜索的起點,然后按照一定規(guī)則來搜索手勢輪廓上的其他像素點。由于輪廓是連續(xù)的,因此每個輪廓上的點的位置都可以用其前一個點的所張的角度來表示。研究中采用如下跟蹤準則,第一個點開始定義搜索方向為左上,如果左上方的點是黑點,則它也是輪廓上的點;如果不是,那么順時針旋轉(zhuǎn),直到找到第一個黑點,即輪廓上的下一個點。繼續(xù)同樣的方法搜索,直到返回最初的起點,搜索結(jié)束。

下圖是輪廓跟蹤算法[15]的示意圖,搜索方向用箭頭表示。

5系統(tǒng)實現(xiàn)

本文的系統(tǒng)是在微軟的VS2010平臺上,使用C++語言進行軟件開發(fā),在圖像處理相關(guān)方面是基于計算機視覺庫(OpenCV)進行研究的。程序界面如下圖:

左邊底層區(qū)的按鈕可以觀察實時手勢跟蹤和識別效果的功能(如圖4和圖7)。

手勢識別的結(jié)果可以定義成一個變量,不同

的識別結(jié)果對應(yīng)的變量值不同,然后根據(jù)變量值調(diào)用不同的API接口函數(shù),這樣就可以實現(xiàn)實時手勢識別技術(shù)在演示控制中的應(yīng)用。本文研究在控制部分挑選了六種手勢,分別控制PPT播放中的開始、退出、上下翻頁、跳轉(zhuǎn)首末頁等功能。手勢命令定義如下:手勢4控制開始播放;手勢3控制退出播放;手勢1控制跳轉(zhuǎn)首頁;手勢2為跳轉(zhuǎn)尾頁;手勢10為向下翻頁頁;手勢5控制向前翻頁。對電腦中某一PPT進行實際的播放控制(列舉其中4個手勢的控制狀態(tài)),效果如下:

1)識別手勢4,開始播放:

2)識別手勢10,向下翻頁:

3)識別手勢1,跳轉(zhuǎn)到首頁:

4)識別手勢3,退出:

系統(tǒng)通過筆記本自帶30W像素的攝像頭,采用DirectShow技術(shù)進行實時視頻的獲取,圖像尺寸是320*240,fps可以達到30-60幀/秒,可以很好的滿足實時性的要求。

6結(jié)語

本文通過研究設(shè)計了一個基于視覺的手勢識別技術(shù)在演示控制中的應(yīng)用系統(tǒng),可以看出背景差分結(jié)合顏色直方圖的運動檢測可以得到較好的手勢區(qū)域效果;采用的基于顏色直方圖的粒子跟蹤也能基本實現(xiàn)實時跟蹤的任務(wù);在識別過程中,基于Hu不變矩的輪廓匹配算法具有很好的魯棒性,可以得到較好手勢識別效果;在應(yīng)用階段,使用手勢來完成控制命令,基本實現(xiàn)了在播放控制中的應(yīng)用。

同時,仍存在一些問題:對于光照和人臉微小晃動等外部因素引起的噪聲,只能降低而無法消除,這對于手勢跟蹤與識別的效果還是有一定的影響,在應(yīng)用時會產(chǎn)生一定的誤操作。這些問題仍需繼續(xù)研究,才能使得基于視覺的手勢識別技術(shù)得到更成熟的應(yīng)用。

參考文獻

[1]吳曉陽.基于OpenCV的運動目標檢測與跟蹤[D].杭州:浙江大學(xué),2008.

[2]CHO J U, JIN S H, PHAM X D. Object tracking circuit using particle filter with multiple features [C] / / SICE-ICASE: International Joint Conference. Las Vegas: IEEE, 2006: 1431-1436.

[3]甘志杰.基于Hu矩和支持向量機的靜態(tài)手勢識別及應(yīng)用[D].青島:青島科技大學(xué),2008.

[4]華斌,夏利娜.基于中值濾波和Hu矩向量的手語識別[J].計算機工程與設(shè)計,2011,32(2): 615- 618.

[5]伏思華,張小虎.基于序列圖像的運動目標實時檢測方法[J].光學(xué)術(shù),2004,30(2): 215- 217.

[6]LINDEBERC T. Scale-space theory: a basic tool for analyzing structures at different scales [J]. Joumal of Applied Statistics. 1994, 21(2):224-270.

[7]于華平.視頻序列中的手勢檢測與跟蹤[D].南寧:廣西大學(xué),2010.

[8]QIN WEN, PENG QICONG. An improved particle filter algorithm based on neural network for visual tracking [C] / / International Conference on Communications, Circuits and Systems. Las Vegas: IEEE, 2007:765-768.

[9]龔翔. 基于粒子濾波的視覺跟蹤算法研究[D]. 南京:南京理工大學(xué),2009.

[10]YU JIAXIA, LIU WENJING, YANG Y. Improved particle filter algorithms based on partial systematic resambling [C]/ /IEEE International Conference on Intelligent Computing and Intelligent Systems. Las Vegas: IEEE, 2010: 483-487.

[11]朱志宇.粒子濾波算法及其應(yīng)用[M].北京:北京科學(xué)出版社,2010.

[12]FAZLI S, POUR H M, BOUZARI H. Particle filter based object tracking with sift and color feature [C] / / Second International Conference on Machine Vision. Las Vegas: IEEE, 2009:89-93.

[13]侯一明,郭雷,倫向敏,等.運動背景下基于粒子濾波的目標跟蹤[J].計算機工程與應(yīng)用,2007,43(8): 62- 64.

計算機視覺研究方向范文第3篇

關(guān)鍵詞:計算機;交通監(jiān)管系統(tǒng);視覺

中圖分類號:TP277

近年來,道路交通安全問題因公路交通事業(yè)的快速發(fā)展而受到越來多關(guān)注。據(jù)2002年世界銀行統(tǒng)計,全球平均每年死于道路交通事故高達117萬人。而在中國,據(jù)2008年公安部交通管理局公布的數(shù)據(jù)顯示,全國道路交通事故多達265204起,死亡人數(shù)為73484人。

全國道路交通事故防御工作隨公路里程、機動車保有量、道路交通流量、駕駛?cè)藬?shù)的增加成遞增趨勢。而通過必要的技術(shù)手段構(gòu)建交通安全保障機制,降低交通事故是重中之重。若要好的為基礎(chǔ)的交通違規(guī)行為檢測技術(shù)的不斷更新,市場上已出現(xiàn)了自動檢測與記錄的商業(yè)化產(chǎn)品,能實時記錄出闖紅燈、違規(guī)超車、違規(guī)停車、超速、逆行等違規(guī)行為。然而,我國高速交通監(jiān)控體系仍比較落后,大多在交叉路口設(shè)置電子警察系統(tǒng)以此檢測車輛闖紅燈的違規(guī)行為。交通管理部門并不能對出現(xiàn)違規(guī)行為的車輛進行及時的交通管制和處理,概括來說管理與檢測仍處于管理誤區(qū)與盲目狀態(tài)。針對該現(xiàn)象,文本研究了基于計算機的交通監(jiān)管系統(tǒng)設(shè)計與實現(xiàn)。

1 智能交通管理系統(tǒng)簡介

ITS系統(tǒng),該系統(tǒng)綜合先進的現(xiàn)代計算機網(wǎng)絡(luò)技術(shù)、信息電子通訊技術(shù)、現(xiàn)代信息技術(shù)以及自動控制技術(shù)等,并將其在整個交通運輸管理體系進行有效的運用,為此建立起一種實時、有效、準確、范圍廣的全方位發(fā)揮作用的交通運輸控制體系和綜合管理系統(tǒng)。近幾年人流、車流隨著城市發(fā)展而猛增,交通職能部門對更加智能的交通管理系統(tǒng)的需求越來越急迫。所以,ITS成為21世紀地面交通管理、運輸科技、運營的主要研究方向,帶領(lǐng)著交通運輸一場偉大的變革。北美、西歐、日本自上世紀80年代末就開始競相發(fā)展智能運輸系統(tǒng),并制定相應(yīng)的開發(fā)計劃加以實施,而發(fā)展中國家也開始對ITS系統(tǒng)的全面研究與開發(fā)。

2 認識基于計算機視覺的智能交通監(jiān)控系統(tǒng)

2.1 計算機視覺技術(shù)

所謂計算機視覺,理解為使用可替代人眼的高清攝影機設(shè)備或其他現(xiàn)代高清電子影像攝錄裝備進行觀察,實現(xiàn)對目標的追蹤定位、圖像識別、模擬數(shù)據(jù)測量等,并對采集的視覺數(shù)據(jù)信息送達遠端計算機服務(wù)器,通過計算機服務(wù)器的信號圖形圖像處理技術(shù)對視頻數(shù)據(jù)信息進行進一步加工,實現(xiàn)三維重現(xiàn)現(xiàn)實情景的計算機觀察呈現(xiàn)技術(shù)。

2.2 智能交通監(jiān)測系統(tǒng)

通過使用現(xiàn)有的、先進的計算機智能化、視覺化、信息化科技對國內(nèi)各大路況交通運輸實施監(jiān)測,為工作于交通運輸人員呈現(xiàn)數(shù)據(jù)信息的自動化采集、分析、處理等的智能化服務(wù),且該交通管理系統(tǒng)存在一定自作能力和指揮能力,即為智能交通系統(tǒng)。隨著道路、車輛的飛速發(fā)展,人民生活水平及國民生產(chǎn)總值的不斷提高,智能交通系統(tǒng),在國內(nèi)外受到越來越多的青睞。近幾年,各道路關(guān)鍵路段、路口隨著道路監(jiān)控機制的普遍建立,也都基本完成了視頻監(jiān)控。

2.3 基于計算機視覺的智能交通監(jiān)控機制

根據(jù)前面2.1對計算機視覺技術(shù)和2.2對智能化交通監(jiān)控系統(tǒng)概念的解析與理解,可總結(jié)出以計算機視覺為基礎(chǔ)的智能化交通監(jiān)控機制,其是通過現(xiàn)代高端計算機對視覺信息收集、提取、處理、分析等技術(shù),實現(xiàn)對城市道路交通信息的實時監(jiān)控、視頻數(shù)據(jù)的收集、信息分析處理,并對城市交通狀況使用智能交通機制狀況,并通過視頻影像引導(dǎo)車輛行駛,以此降低或避免各種各樣交通事故發(fā)生的智能化交通監(jiān)控機制。

3 構(gòu)建以計算機視覺為基礎(chǔ)的智能交通監(jiān)控機制及配套措施

3.1 基于計算機視覺的智能交通監(jiān)控機制的構(gòu)建

監(jiān)控指揮系統(tǒng)、實時交通信息收集系統(tǒng)、高質(zhì)量信息傳輸系統(tǒng)是基于計算機視覺的智能交通監(jiān)控的三大系統(tǒng)。實時交通信息收集系統(tǒng)由多套信息收集裝置組成,通過這些信息采集裝置實時監(jiān)控不同位置交通現(xiàn)狀。實時交通信息收集系統(tǒng)不僅能進行路段監(jiān)控與實時交通信息采集的工作,還能將收集數(shù)據(jù)信息,經(jīng)由高質(zhì)量信息傳輸系統(tǒng)實施輸送,或在服務(wù)器中存儲已處理的信息;一個中央數(shù)據(jù)庫與一個中央服務(wù)器是高質(zhì)量信息存儲傳輸系統(tǒng)核心部分,其中中央數(shù)據(jù)庫對獲取到的實時交通路況信息進行存儲。而為了便于工作者能通過界面對中央數(shù)據(jù)庫實施提取、查詢、查看等操作,因此該界面就由中央服務(wù)器來提供,此外該服務(wù)器還能將已處理的實時路況數(shù)據(jù)通過高質(zhì)量的傳輸系統(tǒng)輸送到監(jiān)控指揮機制,達到對各路段的交通進行管制、部署及指揮的目的。

3.2 專業(yè)技術(shù)人員的儲備

以計算機視覺技術(shù)為基礎(chǔ)的智能交通監(jiān)控機制是一個龐大的系統(tǒng),具有突出點的優(yōu)點,該系統(tǒng)集自動化、信息化、智能化為一體,只有專業(yè)的技術(shù)人才才能使該系統(tǒng)高效工作,因此開展培訓(xùn)儲備相關(guān)技術(shù)人員至關(guān)重要。實時交通信息借助于先進的高清裝置的正常采集工作,所以儲備一批針對高清裝置安裝、檢測、調(diào)試及故障修復(fù)的技術(shù)人員極為重要?,F(xiàn)代基于計算機視覺的智能交通監(jiān)控機制雖然本身具有一定的圖形圖像分析及處理能力,然而有些工作人是永遠被替代的,所以培養(yǎng)儲備一批專業(yè)的圖形圖像處理技術(shù)人員也是重要的。儲備服務(wù)器維護技術(shù)工,每天以計算機視覺技術(shù)為基礎(chǔ)的智能交通監(jiān)控機制都會獲取大量的監(jiān)控信息數(shù)據(jù),然而只有大型的服務(wù)器才能存儲這些數(shù)據(jù),可想而知一旦服務(wù)器癱瘓就會引發(fā)整個機制的崩潰,造成嚴重的后果,因此專業(yè)服務(wù)器維護工作者的儲備與培養(yǎng)也尤為重要?;谟嬎銠C視覺技術(shù)的智能交通監(jiān)控機制并不能取代交通指揮員,其僅是用來采集實時交通信息的系統(tǒng),僅為了協(xié)助交通指揮員監(jiān)管及疏導(dǎo)城市交通,因此要求儲備一批高素質(zhì)、高質(zhì)量的交通指揮員也極為必要。

3.3 交通知識的宣傳

大城市的交通問題,并不是依靠單純的開發(fā)先進的計算機視覺智能交通監(jiān)控系統(tǒng)就能處理解決,也不是單單要求市政建設(shè)增加公交數(shù)量、增鋪幾條公路或增開通幾條地鐵就能解決的,以上這些僅是輔助方法。關(guān)鍵在于開展交通知識的宣傳與教育工作,強化駕駛員的素質(zhì),倡導(dǎo)不酒駕、不逆行、不超速、限號行駛等,自覺遵守道路交通規(guī)則,提倡公交地鐵出行,減少私家車輛行駛,齊心協(xié)力共同打造和諧的交通環(huán)境。

3.4 獲取政府支持

市政建設(shè)的主要問題之一即是交通問題,政府的支持是萬萬不可缺失的。由于構(gòu)建以計算機視覺技術(shù)為基礎(chǔ)的智能交通管制機制,涉及面廣,包括道路勘測、先進裝置的引進、專業(yè)技術(shù)人員的儲備、裝備組織安裝與調(diào)試、后期維護等等多方面,這些都需要投入大量的人力、財力、物力,而對于任何一個單位、部門或幾個市政部門來說都無法獨自承擔,由此可知政府的大力支持是必不可少的,以政府的力量為媒介,將各部門進行協(xié)調(diào)、協(xié)作,只有這樣才能構(gòu)建成較健全的交通監(jiān)控體系。

4 結(jié)束語

道路交通雜、亂是國內(nèi)城市交通最突出的特點之一,對于我國的交通事業(yè)來說進行行人識別勢在必行。而我國對于行人識別的研究仍處于起步階段,還較落后。且基于計算機的交通監(jiān)管系統(tǒng)設(shè)計較為復(fù)雜,涵蓋點較多,因此本文僅對設(shè)計進行簡要介紹,希望達到拋磚引玉的效果。

參考文獻:

[1]康曉麗.無線網(wǎng)絡(luò)技術(shù)在交通管理中的應(yīng)用[J].科技情報開發(fā)與經(jīng)濟,2011(21).

[2]鐘振,賴順橋,肖熠琳,張沛強.RFID車輛智能管理系統(tǒng)[J].機電工程技術(shù),2011(02).

[3]文軍.視頻監(jiān)控系統(tǒng)軟件現(xiàn)狀與技術(shù)分析[J].金卡工程,2007(08).

[4]張玉風(fēng).簡述視頻監(jiān)控系統(tǒng)的發(fā)展歷程[J].鐵道通信信號工程技術(shù),2006(06).

[5]馬伏花,朱青.基于射頻識別技術(shù)的車輛自動識別系統(tǒng)的實現(xiàn)[J].中國儀器儀表,2006(11).

計算機視覺研究方向范文第4篇

摘要:針對集成芯片制造中對定位、校準的高精度、實時性要求,提出了用機器視覺技術(shù)解決芯片基板定位的方法,通過對幾種模板匹配算法的研究,采用基于OpenCV的圖像分析技術(shù)實現(xiàn)了對集成芯片基板的準確定位,解決了傳統(tǒng)機械定位精度低、速度慢的問題。

關(guān)鍵詞:機器視覺;開放源代碼計算機視覺類庫;集成芯片基板;模板匹配

中圖分類號:TP39文獻標識碼:A

The Positioning Technology of Intergrated Chip Strip Based on OpenCV

LIU Hun-hai, HU Peng-hao,XIE Hu

(School of Instrument Science and Opto-electronics Engineering ,

HeFei University of Technology ,Hefei 230009 ,China)

Abstract: Because of the high requirement of position and speed in the process of integrated chips, A position method of integrated chip strip based on machine vision was proposed in this paper. By researching several template match algorithms, the accurate positioning of intergrated chip strip is implemented by using image processing technology based on OpenCV, and low precision and slow speed problem of traditional method is solved.

Keywords:machine vision; OpenCV; integrated chip strip; template match

引言

隨著現(xiàn)代半導(dǎo)體器件向微型化、集成化和高可靠性方向的發(fā)展,芯片生產(chǎn)和制造設(shè)備也朝著高速、高精度、智能化的全自動化的方向發(fā)展。機器視覺在芯片生產(chǎn)過程中扮演著越來越重要的角色,其中最為廣泛的應(yīng)用是定位。

上海技美電子科技有限公司是一家生產(chǎn)集成芯片基板(如圖1)貼膜機的廠家,貼膜工序主要是將芯片貼在一層特殊的膜上,為下一步打斷芯片引線做好準備,而為了提高切割效率,通常將三塊基板一起,但這樣存在相對位置的偏差。針對傳統(tǒng)的光電式傳感器定位精度低、速度慢的缺點,開發(fā)了基于OpenCV的視覺定位系統(tǒng),系統(tǒng)結(jié)構(gòu)如圖2所示。當機械手臂將基板搬運到薄膜上之前,通過該系統(tǒng),對基板進行定位,然后將結(jié)果反饋到控制單元進行調(diào)整。

系統(tǒng)使用的CCD相機是型號為XC-ES50CE的SONY相機,有效像素為752×582,圖像采集卡使用圖1集成芯片基板

的是比利時Euresys公司的產(chǎn)品,型號為Picolo Pro2。在整個系統(tǒng)中,最為關(guān)鍵的問題就是模板匹配。

1 基于灰度的模板匹配方法

本文主要比較了幾種基于灰度的圖像匹配算法:SSDA算法,金字塔算法,NCC算法等。

模板匹配的基本原理是通過相關(guān)函數(shù)的計算來找到它和被搜索圖的坐標位置[1-2]。如圖3所示,設(shè)模板T(n×m像素點)疊放在搜索圖S上移動,模板覆蓋下的那塊搜索圖為子圖 Sij,i,j為這塊子圖的左上角像點在S圖中的坐標。比較T和Sij的內(nèi)容,若兩者一致,則T和S之差為零。測度方法:

1.1 SSDA算法

序貫相似性檢測算法(即SSDA算法)是對傳統(tǒng)模板匹配算法的改進。SSDA算法計算子圖像和模板圖像之間的差值,求和時不需要計算所有像素,而是隨機抽取某幾點像素,只要其和超過設(shè)定的閾值,則說明當前位置不匹配,進行下個位置的計算。

但是該算法本身沒有抗干擾性,如果在外界有噪聲的情況下,算法的精確度不高[3]。

1.2 金字塔算法

金字塔算法也叫分層算法,是直接基于人眼的視覺特點,先粗后細地觀看事物,步驟如下:

(1) 預(yù)處理。首先對模板和搜索圖進行分層預(yù)處理。通過每2×2=4個像素平均為一個像素構(gòu)成二級圖像,然后將此圖像再用同樣的方法處理后得到一個分辨率更低的圖像。如此反復(fù),我們可以得到K個處理后的圖像。

(2) 先粗后細的匹配。先從低分辨率的圖像Sk和TK開始進行匹配運算,找到粗匹配位置(xK,yK),然后在較高分辨率的圖像Sk-1和Tk-1上的粗匹配位置進行搜索,如此下去,一直到最高分辨率的SO和TO上找到匹配位置為止。

1.3 NCC算法

NCC算法就是歸一化互相關(guān)匹配算法,是一個經(jīng)典的匹配算法,它是通過計算模板圖像和待匹配圖像的互相關(guān)值來決定匹配的程度,方法如下:

這種算法簡單,適用于尺寸較小的圖像匹配,且具有很強的抗白噪聲能力,在灰度變化及幾何畸變不大的情況下精度很高[3]。

2 基于OpenCV的模板匹配程序的 實現(xiàn)

2.1 程序流程及其實現(xiàn)

程序的流程如圖4所示,實驗采用的算法是NCC算法,函數(shù)完成比較后,通過使用cvMinMaxLoc找全局最大值,然后將匹配結(jié)果在原圖的對應(yīng)位置標記出來(如圖5所示)。

程序?qū)崿F(xiàn)主要利用OpenCV函數(shù)庫中的cvMatchTemplate函數(shù)[4],通過滑動過整個待匹配圖像,用指定的NCC算法比較模板圖像與待匹配圖像尺寸為 w×h 的重疊區(qū)域,并且將比較結(jié)果保存起來。

2.2 OpenCV簡介

開放源代碼的計算機視覺類庫OpenCV(Intel Open Source Computer Vision Library)由英特爾公司位于俄羅斯的研究實驗室所基于IPL(Intel Image Processing Library)開發(fā),并與之兼容。具有良好的獨立性、跨平臺性、功能強大、處理速度快等特點[5]。

3 實驗數(shù)據(jù)

采用的是一張640×484的原圖,以及一張64×74的模板圖,實驗用電腦CPU為IntelCeleron

C PU420 1.6GHz ,內(nèi)存為1G。經(jīng)過實驗得出,匹配的平均時間為100.128ms,且能找到準確位置,能夠滿足廠家提出的2,000個/小時的技術(shù)要求。

4 結(jié) 論

綜上所述,利用OpenCV開發(fā)的模板匹配程序,擁有匹配準確、執(zhí)行效率較高等特點,對于個別處理器還進行了優(yōu)化,適用于對實時性要求不太高的場合,能夠滿足該企業(yè)芯片基板的定位要求,目前該系統(tǒng)已在企業(yè)運行。

參考文獻

[1] 張廣軍,機器視覺[M],科技出版社,2005: 7-03-014717-0.

[2] Kenneth R.Castleman,Digital Image Processing,Prentice Hall,1995:0132114674.

[3] 劉錦峰,圖像模板匹配快速算法研究[D].湖南長沙:中南大學(xué),2007.

[4] IntelOpen Source Computer Vision Library Reference Manuals[EB/0L].2001.12.

[5] Intel Open Source Computer Vision Library HTML Reference.2003.2.

[6] 黎松,平西建,丁益洪.開放源代碼的計算機視覺類庫OpenCV的應(yīng)用[J],計算機應(yīng)用與軟件. 2005,22(8):134-136.

[7] 呂學(xué)剛,于明,劉翠響.數(shù)字圖像處理與計算機視覺編程的有力工具-IPL和OpenCV[J].現(xiàn)代計算機,2002,147:69-71.

計算機視覺研究方向范文第5篇

關(guān)鍵詞:視覺注視;移動端;數(shù)據(jù)集;行為推測

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)01-0254-03

Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.

Key words: visual gaze; mobile end; data set; behavior conjecture

1 概述

伴S著計算機軟硬件性能和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,大規(guī)模的并行計算技術(shù)突飛猛進,不斷地發(fā)展使各種現(xiàn)有技術(shù)變得越來越成熟,同時機器學(xué)習(xí)和計算機視覺領(lǐng)域也都得到了飛速發(fā)展。視覺技術(shù)的發(fā)展變得越來越重要,并且可以應(yīng)用到實際生活中的很多方面。人類大量的視覺信息現(xiàn)在可以利用計算機來輔助處理,并完成相關(guān)的一些工作。相對于生物信息識別技術(shù)這一計算機視覺領(lǐng)域的熱點技術(shù)來說,也已廣泛應(yīng)用于日常生活中[1]。比如指紋識別器,人臉考勤器等平時在許多地方可以經(jīng)常見到,還有居民家用的攝像頭智能報警系統(tǒng)以及近期炒得火熱的運用支付寶進行刷臉而完成的支付技術(shù)等,這些都是運用了生物信息識別技術(shù)?,F(xiàn)實中的種種跡象已經(jīng)表明運用生物信息識別的計算機技術(shù)已漸漸的滲透到人們的日常生活中并成為不可或缺的組成部分。時下發(fā)展較快也比較常見的生物特征有視網(wǎng)膜、指紋、人臉和人眼等。這些生物信息比如人臉具有個體差異性和自身穩(wěn)定性特點,從用戶的角度來看該特征具有便攜和低侵入等一些優(yōu)點。而人眼作為人臉中最顯著的特征,又是人們獲取外界信息最直接最方便的途徑。都說眼是心靈的窗戶,因為眼睛中蘊含著表情、意圖等多種信息。因此,眼睛注視的行為預(yù)測受到了國內(nèi)外眾多學(xué)者的廣泛關(guān)注,同時在生物信息識別領(lǐng)域中也具有重要的研究意義[2]。

2 注視預(yù)測問題

2.1 問題的背景

在心理、認知和用戶交互研究中的注視跟蹤最近已朝向移動解決方案發(fā)展,因為它們使得可以直接評估用戶在自然環(huán)境中的視覺注意。 除了注意,注視還可以提供關(guān)于用戶的動作和意圖的信息:用戶正在做什么以及接下來將做什么。然而,在自然狀態(tài)下非結(jié)構(gòu)化的任務(wù)中注視行為是相當復(fù)雜的,并且不能使用在受控的實驗室環(huán)境中創(chuàng)建的模型來得到令人滿意的解釋。自然條件下和實驗室環(huán)境有著很大的不同。為了演化在自然環(huán)境中對注視行為的推斷,需要一種更加整體的方法,將從認知科學(xué)到機器學(xué)習(xí)的許多學(xué)科結(jié)合在一起[3]。

從人機交互技術(shù)到醫(yī)學(xué)診斷到心理學(xué)研究再到計算機視覺,眼睛注視跟蹤在許多領(lǐng)域都有應(yīng)用。注視是外部可觀察的人類視覺注意的指標,許多人試圖記錄它。對于眼睛視線方面的研究可以追溯到十八世紀后期。而現(xiàn)如今已經(jīng)存在各種解決方案(其中許多是商業(yè)化的),但是所有的解決方案都具有以下一個或多個方面的問題:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在現(xiàn)實中的自然條件下,這些因素對實際的應(yīng)用會造成一些障礙影響,使得眼睛注視跟蹤不能成為任何具有合理的相機(例如,智能手機或網(wǎng)絡(luò)攝像頭)的人應(yīng)該可以使用的普及技術(shù)。如何才能使得這種技術(shù)普及并且得到應(yīng)用,提出了一種解決方案。

2.2問題的提出

研究中首先要解決的就是用戶的約束問題,也就是自然條件下使用過程中所受到的各種限制問題。到目前為止,基于注視數(shù)據(jù)推斷用戶動作的研究受到許多的限制,特別是在自然環(huán)境中。限制因素可能包括可用的商業(yè)解決方案的昂貴性,其專有性和封閉性以及缺乏實時交互能力等方面。目前的注視跟蹤系統(tǒng),只是盡量在移動設(shè)置中設(shè)置各種條件進行補救。商業(yè)化定制化的解決方案都有其獨自的閉合性質(zhì),因此阻礙了注視跟蹤算法的發(fā)展,并且使得不同方法之間的客觀比較變得不可能[4]。此外,注視是一種復(fù)雜的現(xiàn)象,涉及認知過程的相互作用。這些過程在設(shè)置計算上的建模是非常困難的,尤其是涉及一些未知因素,使得構(gòu)建實驗設(shè)置成為一個很大的挑戰(zhàn)。此外,來自跟蹤實驗的數(shù)據(jù)因為其商業(yè)化的原因很少共享,即使共享數(shù)據(jù)很大部分也是有其獨立的實驗條件。這些方面的問題都阻礙了跨學(xué)科方法在分析和利用注視數(shù)據(jù)和實驗的相關(guān)研究與發(fā)展。

2.3 解決問題的研究方向

對基于注視的推斷的個體貢獻通常保持孤立,不能形成更大的整體以促進對注視動作行為的研究。隨著這方面的技術(shù)發(fā)展和應(yīng)用,最近出現(xiàn)了一些開源的解決方案。雖然在不同的應(yīng)用和用戶界面中使用注視已經(jīng)相當有限,但是移動注視跟蹤的新穎應(yīng)用開始出現(xiàn)并得到了很快的發(fā)展。然而使用移動注視跟蹤來推斷用戶動作的問題是高度多學(xué)科的,需要深入理解各個研究領(lǐng)域,包括人眼的功能,數(shù)學(xué)建模,計算機視覺,機器學(xué)習(xí),信息技術(shù),認知過程,用戶交互以及心理學(xué)。任何一個研究員或甚至任何研究小組都不可能擁有所有研究領(lǐng)域的專家,因此需要相互的協(xié)作共同推進技術(shù)的發(fā)展[5]。

目前的研究主要是從以下幾個方面進行:

1)研究移動注視跟蹤的認知方面,例如增強對任務(wù)中的注視行為的理解或識別不同任務(wù)的特征和階段;

2)開發(fā)用于從注視數(shù)據(jù)推斷用戶動作的計算方法,諸如應(yīng)用機器學(xué)習(xí)用于行為推斷,優(yōu)選地實時地;

3)增強用于改善移動注視跟蹤方法和性能的技術(shù)軟件/硬件解決方案,并使得設(shè)備更容易訪問;

4)發(fā)現(xiàn)注視數(shù)據(jù)在自然環(huán)境和虛擬和增強現(xiàn)實應(yīng)用中的潛在用途,以及定義任務(wù),其中注視可以是用戶動作的有用的預(yù)測器。

3 解決方案

首先選擇移動端進行研究,因為目前比較普遍的移動設(shè)備比如智能手機、平板電腦都有自己可靠的工作系統(tǒng),且不需要外部附件。移動設(shè)備相對于其他平臺具有以下優(yōu)勢:

1)使用的廣泛性。據(jù)估計,到2019年,世界上超過三分之一的人口擁有智能手機,遠遠超過臺式機/筆記本電腦用戶;

2)軟硬件技術(shù)升級的采用率較高。大部分的移動設(shè)備具有允許使用擁有計算復(fù)雜數(shù)據(jù)方法的實時的最新軟硬件;

3)移動設(shè)備上相機的大量使用已經(jīng)導(dǎo)致相機技術(shù)的快速開發(fā)和部署;

4)相機相對于屏幕的固定位置減少了未知參數(shù)的數(shù)量,潛在地允許開發(fā)高精度的校準跟蹤應(yīng)用。

3.1 注視類型分析

注視估計方法可以分為基于模型或基于外觀[6]。基于模型的方法使用眼睛的幾何模型,并且可以被細分為基于角膜反射和基于形狀的方法。另一方面,基于形狀的方法從觀察到的眼睛形狀觀察注視方向。這些方法傾向于具有低的圖像質(zhì)量和可變的照明條件?;谕庥^的方法直接使用眼睛作為輸入,并可能在低分辨率圖像上工作。相比基于模型的方法,基于外觀的方法被認為需要更大量的用戶特定的訓(xùn)練數(shù)據(jù)。通過使用深度學(xué)習(xí)和大規(guī)模數(shù)據(jù)不必依賴于視覺,以實現(xiàn)準確的無校準注視估計。這種方案提出建立一個基于外觀的數(shù)據(jù)模型,而不使用任何手工設(shè)計的功能,例如頭部姿勢或眼球中心位置。

3.2 技術(shù)方案

深度學(xué)習(xí)的最近成功在計算機視覺的各種領(lǐng)域中是顯而易見的,但是它對改善眼睛跟蹤性能的影響還是相當有限。因為深度學(xué)習(xí)是需要大量的數(shù)據(jù)作為支持,而視線追蹤這方面的數(shù)據(jù)集還比較少,普通的研究所得到的稻菁比較有限,最大的數(shù)據(jù)集通常只是具有50個受試者左右,由于缺乏大規(guī)模數(shù)據(jù)的可用性,因此發(fā)展比較緩慢。因而提出了使用深度學(xué)習(xí)進行研究的一套方案,就是構(gòu)造大規(guī)模的數(shù)據(jù)集。利用網(wǎng)絡(luò)資源構(gòu)造一個大規(guī)模的基于移動的眼動跟蹤數(shù)據(jù)集,它包含來自各種背景的大量的受試者,在可變照明條件和不受限制的頭部運動下記錄[7]。運用現(xiàn)有的智能算法得到一個可以進行卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)端到端的注視預(yù)測的后臺決策網(wǎng)絡(luò)。不依賴任何預(yù)先存在的系統(tǒng),不需要頭部姿態(tài)估計或其他手動設(shè)計的特征用于預(yù)測。使用只有雙眼和臉部的特征訓(xùn)練網(wǎng)絡(luò),在這個領(lǐng)域的性能優(yōu)于現(xiàn)有的眼睛跟蹤方法。雖然現(xiàn)在的決策網(wǎng)絡(luò)在精度方面實現(xiàn)了很先進的性能,但是數(shù)據(jù)輸入的大小和參數(shù)的數(shù)量使得難以在移動設(shè)備上實時使用。 為了解決這個問題,需要培養(yǎng)學(xué)習(xí)得到一個更小更快的網(wǎng)絡(luò),在移動設(shè)備上實現(xiàn)實時性能,使得精度損失進一步降低。

3.3 大規(guī)模數(shù)據(jù)集

為了達到這一方案的預(yù)測效果,首先要進行的是數(shù)據(jù)集的建立。網(wǎng)絡(luò)上相關(guān)的研究中有許多公開的注視數(shù)據(jù)集[8]??偨Y(jié)對比這些相關(guān)的數(shù)據(jù)集,分析出有些早期的數(shù)據(jù)集不包含顯著性的頭部姿勢變化或具有粗略的注視點采樣密度。需要對這些數(shù)據(jù)進行篩選,使得到的數(shù)據(jù)具有隨機分布特點。雖然一些現(xiàn)代數(shù)據(jù)集遵循類似的方法,但它們的規(guī)模(尤其是參與者的數(shù)量)相當有限。大多數(shù)現(xiàn)有的眼動追蹤數(shù)據(jù)集已經(jīng)由邀請實驗室參與者的研究人員收集,這一過程導(dǎo)致數(shù)據(jù)缺乏變化,并且成本高且效率不高。因此需要大量的進行數(shù)據(jù)收集和篩選分析。大規(guī)模數(shù)據(jù)可以通過卷積神經(jīng)網(wǎng)絡(luò)有效地識別人臉(他們的眼睛)上的細粒度差異,從而做出準確的預(yù)測。

收集眼動跟蹤數(shù)據(jù)應(yīng)該注意的方面:

1)可擴展性。數(shù)據(jù)應(yīng)該是自然條件下的使得用戶具有靈活性;

2)可靠性。運用現(xiàn)有的智能移動設(shè)備真實的應(yīng)用圖像而非設(shè)計處理過的圖像;

3)變異性。盡量使數(shù)據(jù)具有較大的變異性,使得模型更加穩(wěn)健,適應(yīng)各種環(huán)境下的操作。

4 結(jié)束語

文章介紹了一種針對移動設(shè)備的用戶注視行為推測解決方案。首先建立一個大規(guī)模眼動跟蹤數(shù)據(jù)集,收集大量的注視數(shù)據(jù)。大型數(shù)據(jù)集的重要性,以及具有大量各種數(shù)據(jù)以能夠訓(xùn)練用于眼睛跟蹤的魯棒模型。然后,訓(xùn)練得到一個深層卷積神經(jīng)網(wǎng)絡(luò),用于預(yù)測注視。通過仔細的評估,利用深度學(xué)習(xí)可以魯棒地預(yù)測注視,達到一個較好的水平。此外,雖然眼睛跟蹤已經(jīng)存在了幾個世紀,相信這種新方案的策略可以作為下一代眼動跟蹤解決方案的關(guān)鍵基準。希望能通過這方面的研究,使人機交互得到更好的發(fā)展。

參考文獻:

[1] 崔耀 視控人機交互系統(tǒng)技術(shù)研究與實現(xiàn)[D].西安,西安電子科技大學(xué),2013.

[2] 遲健男, 王志良, 張闖.視線追蹤[M].北京: 機械工業(yè)出版社, 2011.

[3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer VisionCECCV 2012. Springer, 314-327.

[4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/

6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.

[5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.

[6] 楊彩霞.基于近紅外光源的非接觸式視線跟蹤技術(shù)研究 [D].山東:山東大學(xué),2012.