婷婷超碰在线在线看a片网站|中国黄色电影一级片现场直播|欧美色欧美另类少妇|日韩精品性爱亚洲一级性爱|五月天婷婷乱轮网站|久久嫩草91婷婷操在线|日日影院永久免费高清版|一级日韩,一级鸥美A级|日韩AV无码一区小说|精品一级黄色毛片

首頁 > 文章中心 > 計算機爬蟲技術(shù)

計算機爬蟲技術(shù)

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇計算機爬蟲技術(shù)范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

計算機爬蟲技術(shù)

計算機爬蟲技術(shù)范文第1篇

>> 基于網(wǎng)絡爬蟲原理的Web內(nèi)容挖掘技術(shù)分析 基于陷阱技術(shù)的網(wǎng)絡爬蟲檢測 基于WebKit的網(wǎng)絡爬蟲 基于模糊測試的網(wǎng)絡協(xié)議漏洞挖掘研究 基于異步JavaScript技術(shù)的水稻病蟲害圖像網(wǎng)絡爬蟲設(shè)計 淺析漏洞挖掘技術(shù) 一種基于python語言的網(wǎng)絡爬蟲研究 基于Scrapy框架的分布式網(wǎng)絡爬蟲實現(xiàn) 基于多線程的網(wǎng)絡爬蟲設(shè)計與實現(xiàn) 基于網(wǎng)絡爬蟲的設(shè)計與實現(xiàn) 基于Websphinx網(wǎng)絡爬蟲的研究與改進 基于軟件體系結(jié)構(gòu)分析的漏洞挖掘技術(shù)研究 基于垂直搜索引擎的主題爬蟲技術(shù) 網(wǎng)絡論壇爬蟲的設(shè)計 基于系統(tǒng)漏洞掃描和防病毒技術(shù)的網(wǎng)絡安全的設(shè)計 基于網(wǎng)絡安全的防火墻漏洞掃描技術(shù) 基于Fuzzing的軟件漏洞發(fā)掘技術(shù) 基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡營銷管理 基于主機和網(wǎng)絡入侵檢測的數(shù)據(jù)挖掘技術(shù) 基于Web的網(wǎng)絡信息挖掘技術(shù)研究 常見問題解答 當前所在位置:l、.asp、.com、.cn等常見的字符終止的,因此,當我們對字符進行hash時,應當去除開始和結(jié)尾的常見字符,這樣可以減少碰撞發(fā)生的概率。本文提出了一種新的算法----M-Interval-Hash,可以計算URL的hash值:令M=去掉常見字符后的字符長度/N,代表在URL中選取字符時間隔的字符數(shù)。N是一個按照經(jīng)驗來設(shè)置的參數(shù),例如,N=3,字符長度為36,則M=12,表示選取字符的間隔是12個字符。

2.2 代碼自動注入模塊

在對XSS漏洞進行挖掘時,需要注入代碼來測試漏洞是否存在,而在XSS中,惡意代碼的注入可以是在GET請求中,也可以是POST請求。所以,在代碼自動注入時,應該考慮上述兩種情形。在代碼注入時,測試每一個注入點,測試時按照數(shù)據(jù)庫中測試代碼順序依次從數(shù)據(jù)庫中取出一條記錄,直到數(shù)據(jù)庫中的記錄為空。

2.3 漏洞檢測模塊

代碼注入完成之后,還需要對注入的結(jié)果進行檢測,以確定是否存在該漏洞。本文通過匹配漏洞特征庫來判斷XSS漏洞是否執(zhí)行成功。從漏洞特征庫讀取XSS注入漏洞的測試腳本,對每個GET變量和POST變量依次進行XSS攻擊。然后分析從Web服務器端返回的響應消息,看其是否滿足漏洞庫中該漏洞的特征。若滿足,則說明存在XSS漏洞,否則不存在。

XSS的測試效果很大程度上由測試腳本的質(zhì)量決定,本方案選擇的腳本為OWASP所推薦的測試腳本。

3 實驗結(jié)果及比較

3.1 網(wǎng)絡爬蟲模塊中URL去重算法測試

為了驗證本文技術(shù)方案的可行性,首先對URL去重算法進行了驗證,將M-Interval-Hash算法與MD5算法進行比較。實驗環(huán)境采用一臺計算機,CPU為Pentium E5300,內(nèi)存為2GB。軟件環(huán)境為Windows XP Professional版本 2002 Service Pack2和JDK 1.6,數(shù)據(jù)庫為MySQL 5.5.20。在M-Interval-Hash算法中,為了測試方便,我們?nèi)∨cM相關(guān)的經(jīng)驗參數(shù)N=8,將該算法和MD5算法比較。

4.2 XSS漏洞檢測測試

為測試本文技術(shù)的可行性,對一些網(wǎng)站進行了掃描,并和另外兩種基于爬蟲的檢測工具Acunetix WVS Free Edition 6.5和XSSer 1.5進行比較。第一個網(wǎng)站測試環(huán)境為Apache 2.2.14+PHP;第二個網(wǎng)站測試環(huán)境為IIS 6.0+ASP。

表1為上述兩種工具和本文技術(shù)掃描結(jié)果比較。

在表1中的第二個網(wǎng)站中存在Form表單,所以XSSer無法檢測出XSS漏洞。

本文技術(shù)、Acunetix WVS 8和XSSer 1.5對XSS漏洞掃描的時間比較見表2。

通過表1和表2的數(shù)據(jù)可看出本文XSS漏洞挖掘技術(shù)相對Acunetix WVS和XSSer兩種工具來說性能更佳。

4 結(jié)束語

對于Web攻擊中的大量XSS攻擊,本文提出了一種基于網(wǎng)絡爬蟲的XSS漏洞挖掘技術(shù),為了提高網(wǎng)絡爬蟲的性能,在網(wǎng)絡爬蟲模塊使用了M-Interval-Hash新算法,以實現(xiàn)URL去重,同時為了提高網(wǎng)頁抓取速度,采用了異步I/O完成端口模型,漏洞檢測模塊則使用特征庫匹配技術(shù)。通過實驗證明,XXS漏洞檢測效果較好,在郵箱XSS漏洞的挖掘、Web網(wǎng)站XSS漏洞的檢測等方面均有成功的應用.

[參考文獻]

計算機爬蟲技術(shù)范文第2篇

關(guān)鍵詞:垂直搜索;金融信息;爬蟲技術(shù);語義網(wǎng)絡

中圖分類號:TP391.3

隨著互聯(lián)網(wǎng)的高速發(fā)展,造就了信息的空前繁榮。面對浩如煙海的信息時,企業(yè)和投資者如何有效、準確地獲取他們所需的信息變得越來越迫切,因為隨時隨處都蘊藏著稍縱即逝的商機。以Google、百度為代表的傳統(tǒng)搜索模式在大幅提高用戶獲取信息的效率同時,也日益顯露出自身的瓶頸:搜索引擎的商業(yè)發(fā)展趨勢,比如付費廣告等無效信息越來越多,產(chǎn)生“搜索噪音”,金融領(lǐng)域的專業(yè)人士呼吁專業(yè)性的搜索引擎,我們通常所說的垂直搜索引擎,便是利用在專業(yè)領(lǐng)域的索引方式,下面以金融領(lǐng)域為例說明構(gòu)建金融垂直搜索引擎所采用的關(guān)鍵技術(shù)以及所用到的資源。

1 垂直搜索引擎概述

垂直搜索引擎是指在某一個專業(yè)領(lǐng)域(例如金融、能源等),通過收集到的網(wǎng)頁信息量,再進行一次整合,最終為專業(yè)人士提供的有一定價值的信息。它可以幫助人們在更為縮小的范圍獲取更具有針對性的信息。如圖一所示。

2 金融垂直搜索的關(guān)鍵技術(shù)

2.1 金融爬蟲技術(shù)。金融爬蟲因為和某一領(lǐng)域密切相關(guān),所以需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放人等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復上述過程,直到達到系統(tǒng)的某一條件時停止,另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于專業(yè)網(wǎng)絡爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導,如圖2所示為普通爬蟲和專業(yè)爬蟲的比較。

2.2 結(jié)構(gòu)化信息抽取技術(shù)。結(jié)構(gòu)化信息抽取技術(shù)是指將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)后再存入數(shù)據(jù)庫。結(jié)構(gòu)化信息抽取技術(shù)是垂直搜索引擎和通用搜索引擎最大的差別,也是評判垂直搜索引擎質(zhì)量的重要技術(shù)指標。

2.3 自然語言智能語義處理技術(shù)。自然語言智能語義處理技術(shù)指的是使計算機具有理解人類語言和自我學習語言的能力,并根據(jù)相應的語言要求完成具體的操作。我們使用自然語言智能語義技術(shù)來提高相關(guān)度的判定準確率,相關(guān)度模塊的準確程度直接決定金融爬蟲的收割效果。在這一技術(shù)中,結(jié)合中文分詞和語義理解可以很好地保證系統(tǒng)搜集金融信息的準確率,并且可以提高金融爬蟲的效率。通過金融垂直領(lǐng)域詞典來解析相應的用戶自然語言輸入和金融數(shù)據(jù)內(nèi)容,根據(jù)解析的語義建立主題垂直索引,涉及實體識別、語義網(wǎng)絡、語義索引模塊、垂直查詢等模塊。(1)實體識別。我們以識別算法為基礎(chǔ),開發(fā)出金融命名的自動識別算法和工具。金融行業(yè)命名實體包括所有的金融專業(yè)術(shù)語、上市公司名稱、金融機構(gòu)名稱、著名業(yè)內(nèi)人士等等。(2)語義網(wǎng)絡。如果不了解文本中的語義就無法判斷它會帶來的影響,例如如果不了解“市盈率”這個詞所代表的意義就不能對描述市盈率變化的新聞進行處理,因此這里需要一個針對金融文本的小型語義網(wǎng)絡,每個節(jié)點是一個與股市相關(guān)的概念,例如“利率”、“匯率”、“股價”等。該語義網(wǎng)絡的建立需要融入專家知識,并具有可擴展性,可以根據(jù)需要增加。(3)語義索引模塊。在基于關(guān)鍵詞的索引體系上,建立基于語義的索引體系,以便進行語義相關(guān)的計算和查詢。(4)垂直查詢模塊。在垂直查詢模塊中,根據(jù)請求者的日常搜索關(guān)鍵詞從中找到規(guī)律性,利用識別方法建立自己專業(yè)詞匯的數(shù)據(jù)庫。

3 金融垂直搜索中所用到的資源

對于金融垂直搜索系統(tǒng),融合了網(wǎng)絡金融、漢語分詞、語義處理和領(lǐng)域知識學習等多項專業(yè)技術(shù),因此系統(tǒng)在構(gòu)建中需要相應的資源作保證,目前實現(xiàn)金融垂直搜索系統(tǒng)所用到的資源有以下一些。

3.1 詞匯:(1)上市公司的名稱、簡稱和別稱;(2)投資機構(gòu)的名稱、簡稱;(3)股市相關(guān)名稱,比如“大盤”、“后市”、“大小非”、“散戶”、“指數(shù)”等;對于這一類詞匯的獲取,可以從大量Web股市文本中通過自動詞匯獲取與手工相結(jié)合的方式,并手工標注其感彩。

3.2 表達模式庫。我們感興趣的信息是某個主體(評論家、記者、證券研究機構(gòu)等)對某個客體(股票、行業(yè)板塊、大盤、宏觀經(jīng)濟形勢、后市等)的態(tài)度(觀望、看多、看空等)、描述(利好、利空等)和操作(建倉、清倉、半倉、拋售等)。因此需要構(gòu)建一個針對股市新聞的文本表達模式(模版)庫,幫助我們對金融垂直領(lǐng)新聞的信息進行結(jié)構(gòu)化提取,以便支持后續(xù)的研究。

表達模式可以大致分為以下幾類:(1)態(tài)度,例如“A對B~”(機構(gòu)對后市看好)、“~有望~”(后市有望大幅拉升);(2)描述,例如“A強力~”(機構(gòu)強力出擊)、“A指出,B~”(分析人士指出)、“給A帶來~”(給市場帶來較大的壓力);(3)邏輯,包括一些轉(zhuǎn)折、遞進、因果、雙重否定等的邏輯表達方式。

對于那些簡單的表達,不需要統(tǒng)計其表達模式,可以繼續(xù)使用詞頻方式;對于稍微復雜的表達方式,需要開發(fā)自動化的工具從股市文本的語料中獲取,并加以標注。

4 結(jié)束語

金融垂直搜索引擎的應用能夠很好的滿足金融主體的需求。對于多樣化數(shù)據(jù)的專業(yè)化細分成為垂直搜索的最大技術(shù)特點,減少垃圾信息,提高搜索效率,在某些方面甚至可以提供實時的數(shù)據(jù),最大限度地整合了現(xiàn)在的網(wǎng)頁數(shù)據(jù),為用戶提供了完整的金融信息檢索體驗。

參考文獻:

[1]梁循,楊健,陳華.互聯(lián)網(wǎng)金融信息系統(tǒng)的設(shè)計與實現(xiàn)[M].北京:北京大學出版社,2006.

[2]梁循.網(wǎng)絡金融信息挖掘?qū)д揫M].北京:北京大學出版社,2008.

[3]吳柏林,宋澤鋒.一種基于本體的垂直搜索引擎系統(tǒng)模型[J].計算機工程與科學,2008(10).

[4]陳洪猛.基于垂直搜索技術(shù)的搜索引擎解決方案[J].電腦應用技術(shù),2008(72).

[5]杜建亮.金融信息垂直搜索引擎的技術(shù)探討[J].科學之友,2009(06).

計算機爬蟲技術(shù)范文第3篇

參考文獻和論文是一個整體,是不可缺少的部分,作者在文中引用了前人的研究成果就應該標注出來,然后列在論文的結(jié)尾的地方。下面是千里馬網(wǎng)站小編采編收集的關(guān)于計算機網(wǎng)絡論文參考文獻,希望小編整理的這些文獻能給大家在寫作當中有所幫助。

計算機網(wǎng)絡論文參考文獻:

[1]李磊.基于計算機網(wǎng)絡病毒的主要特性及功能的分析與研究[J].山東工業(yè)技術(shù),2016,(01):157.

[2]丁媛媛.計算機網(wǎng)絡病毒防治技術(shù)及如何防范黑客攻擊探討[J].赤峰學院學報(自然科學版),2012,(08):41-42.

[3]羅婷婷.網(wǎng)絡侵害行為分析[J].湖北民族學院學報(哲學社會科學版).2015(04).

[4]劉海燕,黃睿,黃軒.基于主題爬蟲的漏洞庫維護系統(tǒng)[J].計算機與現(xiàn)代化.2014(08).

[5] 譚浩強.C程序設(shè)計[M].4版.北京:清華大學出版社,2010.

[6] 未來教育.全國計算機等級考試模擬考場二級C[M].成都:電子科技大學出版社,2015.

[7] 教育部考試中心.全國計算機等級考試二級教程-C語言程序設(shè)計[M].北京:高等教育出版社,2002.

計算機網(wǎng)絡論文參考文獻:

[1]姚渝春,李杰,王成紅.網(wǎng)絡型病毒與計算機網(wǎng)絡安全[J].重慶大學學報(自然科學版),2003,26(9).

[2]吉玲峰.網(wǎng)絡型病毒與計算機網(wǎng)絡安全[J].計算機光盤軟件與應用,2013(5).

[3]許江蘭.淺談網(wǎng)絡型病毒與計算機網(wǎng)絡安全[J].計算機光盤軟件與應用,2011(16).

[4]伍毅強醫(yī)院計算機網(wǎng)絡設(shè)備管理及維護策略研究[J].無線互聯(lián)科技,2014,1:199.

[5]汪忠樂醫(yī)院計算機網(wǎng)絡安全管理工作的維護措施[J].無線互聯(lián)科技,2015,07:55-56.

[6]張波.試論醫(yī)院計算機網(wǎng)絡設(shè)備的管理措施和維護策略[J].科技創(chuàng)新導報,2013,24:29.

計算機網(wǎng)絡論文參考文獻:

[1]李先宗.計算機網(wǎng)絡安全防御技術(shù)探究[J].電腦知識與技術(shù),2015(21):33-35.

[2]羅恒輝.計算機網(wǎng)絡信息與防御技術(shù)的應用實踐芻議[J].信息與電腦,2016(2):170-171.

[3]李軍.基于信息時代的網(wǎng)絡技術(shù)安全及網(wǎng)絡防御分析[J].網(wǎng)絡安全技術(shù)與應用,2016(1):17-18.

[4]吳曉旭.計算機網(wǎng)絡安全的防御技術(shù)管窺[J].智能城市,2016(4):120-121.

[5]彭龍.企業(yè)計算機網(wǎng)絡信息安全體系的構(gòu)建研究[J].科技廣場,2016(5):94-98.

[6]阮彥鈞.計算機網(wǎng)絡安全隱患及防御策略探討[J].科技與創(chuàng)新,2016(16):91-92.

[7]姚宏林,韓偉杰,吳忠望.計算機信息網(wǎng)絡安全防御特征研究[J].科技創(chuàng)新導報,2014(21):45-46.

計算機爬蟲技術(shù)范文第4篇

關(guān)鍵詞:搜索引擎;網(wǎng)絡爬蟲;檢索

中圖分類號:TP311.52 文獻標識碼:A

1.搜索引擎介紹

搜索引擎是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上采集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將檢索的相關(guān)信息展示給用戶的系統(tǒng)。搜索引擎是工作于互聯(lián)網(wǎng)上的一門檢索技術(shù),它旨在提高人們獲取搜集信息的速度,為人們提供更好的網(wǎng)絡使用環(huán)境。從功能和原理上搜索引擎大致被分為全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎等四大類。

全文搜索引擎是當前應用最為普遍的主流搜索引擎,國內(nèi)外知名的有baidu,Google,Bing等。全文搜索引擎的工作原理是分詞程序?qū)⑴老x程序從互聯(lián)網(wǎng)上抓取的文章中的內(nèi)容預處理后進行分詞,然后計算機索引程序掃描分好的詞,對每一個詞建立倒排索引,并將該詞在文章中出現(xiàn)的位置以及次數(shù)記錄在數(shù)據(jù)庫中,當用戶檢索程序在用戶提交檢索請求時根據(jù)數(shù)據(jù)庫中事先建立的索引進行檢索,并將檢索結(jié)果反饋給用戶。全文搜索引擎數(shù)據(jù)庫的容量極大,檢索的范圍很廣,易用性較強,然而由于知識來源較為廣泛,導致重復的內(nèi)容過多且繁雜,更新不夠迅速。

元搜索引擎就是通過一個統(tǒng)一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的搜索引擎來實現(xiàn)檢索操作,是對分布于網(wǎng)絡中的多種檢索工具的全局控制機制。目前國內(nèi)外有諸如360綜合搜索、InfoSpace等。元搜索引擎可以充分集中各搜索引擎的優(yōu)勢有效地擴大了搜索引擎的檢索廣度和提高了檢索結(jié)果的準確率。元搜索引擎是基于多個搜索引擎上的二次整合,它沒有數(shù)據(jù)庫,因此相同的檢索請求會導致重復檢索。

垂直搜索引擎是針對某一個行業(yè)進行搜索的專業(yè)搜索引擎,是搜索引擎的細分和延伸,是對網(wǎng)頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數(shù)據(jù)進行處理后再返回給用戶。垂直搜索引擎是在特定的搜索領(lǐng)域來滿足特定的搜索需求如火車票搜索、視頻搜索等,其檢索范圍小而且是基于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)的搜索,檢索結(jié)果準確度高,檢索時間短,所需耗費的成本低。

目錄搜索引擎是以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務和直接檢索服務。它有別于其他的各類搜索引擎。

2.搜索引擎所用主要技術(shù)

搜索引擎工作流程主要有數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)處理、結(jié)果展示等階段。在各工作階段分別使用了網(wǎng)絡爬蟲、中文分詞、大數(shù)據(jù)處理、數(shù)據(jù)挖掘等技術(shù)。

網(wǎng)絡爬蟲也被稱為蜘蛛或者網(wǎng)絡機器人,它是搜索引擎抓取系統(tǒng)的重要組成部分。網(wǎng)絡爬蟲根據(jù)相應的規(guī)則,以某些站點作為起始站點通過各頁面上的超鏈接遍歷整個互聯(lián)網(wǎng),利用URL引用根據(jù)廣度優(yōu)先遍歷策略從一個html文檔爬行到另一個html文檔來抓取信息。

中文分詞是中文搜索引擎中一個相當關(guān)鍵的技術(shù),在創(chuàng)建索引之前需要將中文內(nèi)容合理的進行分詞。中文分詞是文本挖掘的基礎(chǔ),對于輸入的一段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。

大數(shù)據(jù)處理技術(shù)是通過運用大數(shù)據(jù)處理計算框架,對數(shù)據(jù)進行分布式計算。由于互聯(lián)網(wǎng)數(shù)據(jù)量相當龐大,需要利用大數(shù)據(jù)處理技術(shù)來提高數(shù)據(jù)處理的效率。在搜索引擎中,大數(shù)據(jù)處理技術(shù)主要用來執(zhí)行對網(wǎng)頁重要度進行打分等數(shù)據(jù)計算。

數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中采用自動或半自動的建模算法,尋找隱藏在數(shù)據(jù)中的信息,是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的過程。數(shù)據(jù)挖掘一般和計算機科學相關(guān),并通過機器學習、模式識別、統(tǒng)計學等方法來實現(xiàn)知識挖掘。在搜索引擎中主要是進行文本挖掘,搜索文本信息需要理解人類的自然語言,文本挖掘指從大量文本數(shù)據(jù)中抽取隱含的、未知的、可能有用的信息。

3.搜索引擎以及搜索引擎技術(shù)發(fā)展趨勢

3.1 搜索引擎的發(fā)展趨勢

隨著移動業(yè)務、科技的發(fā)展和人們生活方式的改變,在未來搜索引擎將會發(fā)生明顯的變化。

3.1.1 知識圖譜搜索

知識圖譜是顯示知識發(fā)展進程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。當用戶發(fā)起一個搜索請求后,除了顯示用戶搜索的結(jié)果,其他與之相關(guān)的重要信息也將以發(fā)散圖表的形式呈現(xiàn)出來。這一功能將在滿足用戶信息檢索的同時,可以更好的理解用戶所需要的內(nèi)容。

3.1.2 個性化搜索

搜索引擎技術(shù)的通用性決定了它的普適性,從而忽略了搜索用戶個體之間的差異。個性化的搜索技術(shù)可以根據(jù)不同背景、不同目的和不同時期的查詢請求為不同用戶提供有對性的個性化的搜索服務。個性化搜索通過采集以及分析不同的用戶數(shù)據(jù)信息來學習不同用戶的行為和愛好,從而實現(xiàn)對不同用戶進行差異化信息檢索的目的。

3.1.3 多媒體搜索

計算機爬蟲技術(shù)范文第5篇

【關(guān)鍵詞】網(wǎng)絡爬蟲;WEB挖掘;股票預警

1.引言

在證行業(yè)內(nèi),客戶是證券公司的最重要的資產(chǎn),直接關(guān)系到公司核心業(yè)績的好壞。市場競爭的日益激烈,使得證券公司對客戶的爭奪加劇。一些證券公司采取以低于成本的證券交易傭金水平、“零傭金”等方式招攬客戶,但是仍然收效甚微。其根本原因在于忽視客戶的實際利益需求。證公司要更加注意練內(nèi)功,增加服務的“含金量”,利用信息化時代的技術(shù)條件,適時建立一種個性化服務,才能夠贏得客戶的信賴,實現(xiàn)證公司和股民的共贏。

目前每一家證券公司都開通了自己的門戶網(wǎng)站,實時股評、盤后解讀、各種深度分析、個股資料、研究報告、消息等紛繁復雜。每個投資者每天都要面對成千上萬條的真假資訊,查詢時耗時費力。因此使他們便捷地獲取真正關(guān)心的信息就顯得尤為重要。一個好的證券公司,并不是要將所有能獲取的信息全部展現(xiàn)給客戶,而是要求首先建立結(jié)構(gòu)化的信息采集和管理系統(tǒng),然后根據(jù)客戶的需要提供它們所要求的內(nèi)容。而這就是本文要探討的股票信息預警系統(tǒng)。

2.基于網(wǎng)絡爬蟲的股票預警系統(tǒng)分析

面對大量的實時證信息,只有使用自動化的手段來有的放矢的獲取,才能滿足用戶的要求。我們結(jié)合搜索引擎所使用的網(wǎng)絡爬蟲技術(shù),來實現(xiàn)股票信息預警系統(tǒng)。網(wǎng)絡爬蟲是一種按照一定的規(guī)則自動提取互聯(lián)網(wǎng)信息的程序,它是搜索引擎的重要組成部分,把分散在互聯(lián)網(wǎng)上的離散的信息收集起來,以便人們方便快捷的搜索到有用的信息。從而明顯地降低了人們獲取信息的難度。

本文使用由HtmlParser和 HttpClient兩個開源工具構(gòu)建的一個簡易網(wǎng)絡爬蟲來實現(xiàn)股票信息預警。HttpClient提供了便利的 HTTP 協(xié)議訪問,使得我們可以很容易的得到某個網(wǎng)頁的源碼并保存在本地。HtmlParser對HTML代碼進行處理,將抓取下來的網(wǎng)頁信息進行再加工,分析,抽取有用的信息,并通過短信平臺將分析加工后的數(shù)據(jù)發(fā)送給用戶。

使用上述方法完成股票信息預警系統(tǒng)的設(shè)計,實現(xiàn)股票價格到價提醒和股票公告信息的推送的功能。

3.股票信息預警系統(tǒng)設(shè)計

3.1 工作原理

預警系統(tǒng)由系統(tǒng)短信接收模塊借助短信平臺的WEB.SERVICE接口獲取用戶設(shè)置的股票預警和公告推送代碼信息,將這些信息送入股票預警系統(tǒng)里進行處理,并寫入數(shù)據(jù)庫。然后利用網(wǎng)絡爬蟲對指定數(shù)據(jù)源進行實時抓取,獲取到的網(wǎng)頁股票數(shù)據(jù)返回給系統(tǒng)進行預警處理,抓取到的公告信息由網(wǎng)絡爬蟲提取處理后返回給系統(tǒng)分析,通過短信發(fā)送模塊回復給用戶,同時回寫數(shù)據(jù)庫。

根據(jù)客戶實時提交的預警股票代碼,拼接鏈接地址,放進待抓取隊列,并根據(jù)股票代碼建立一張動態(tài)更新股價的哈希表,然后股票工作線程按一定的時間間隔從待爬行隊列中取出鏈接發(fā)送http請求獲取源數(shù)據(jù),分析數(shù)據(jù),把提取出來的價格放入哈希表中。此時程序不停的比較動態(tài)更新股價的哈希表與用戶設(shè)定的預警價格表,如果符合預警條件,則退出進入下一個環(huán)節(jié)短信發(fā)送,如果不符合條件,則繼續(xù)比對,直到滿足系統(tǒng)停止條件為止。

3.2 基本工作流程

4.股票信息預警系統(tǒng)的實現(xiàn)

本文采用模塊式的實現(xiàn)方法,將預警系統(tǒng)分為若干部分,限于篇幅,這里主要介紹股票預警、股票信息獲取、短信收發(fā)這幾個模塊。

4.1 股票預警設(shè)計思路

實現(xiàn)股票價格的預警,需要兩個要素,其一是用戶設(shè)定的預警價格,其二是不斷變化中的實時價格。有了這兩個價格就可以通過比較直到滿足條件(突破上下限價格)完成預警。這些價格信息存儲在數(shù)據(jù)列中,所以實現(xiàn)時選擇使用Hashtable存儲動態(tài)更新的實時股票價格表stockprice,List存儲用戶設(shè)定的預警價格表CurrentAletStocks。

首先將預警股票代碼寫入stockprice和CurrentAletStocks中,stockprice獲取股票實時價格,將此價格與CurrentAletStocks正在預警的股票的上下限進行比較,如果在上下限之間,那么只更新stockprice中的當前價格;如果突破了上限或者下限價格,更新當前價格,并將突破當前價格內(nèi)容信息送入短信收發(fā)模塊發(fā)送給預警的用戶。

4.2 股票信息獲取

實時股票信息的來源主要通過調(diào)用股票公用數(shù)據(jù)接口來實現(xiàn),本系統(tǒng)中使用了新浪股票公用數(shù)據(jù)源。從數(shù)據(jù)源獲取到的實時股票信息,我們還需要對它進行解碼。系統(tǒng)解碼后的字符串信息有很多,如(股票名稱、行情時間、最新價、昨收盤、今開盤、漲跌額、最低、最高、漲跌幅、成交量、成交額、競買價、競賣價、委比、買一-買五、賣一-賣五),而我們需要的只是現(xiàn)價和股票名稱,所以還要通過自定義的方法Parse對字符串進行格式匹配處理從而得到我們想要的數(shù)據(jù)。

我們以新浪股票公用數(shù)據(jù)源獲取股票信息為例:

⑴構(gòu)建股票代碼信息

例如:600250 Sh600250 如果是60開頭為滬市、如果是30或者00開頭為深市

⑵拼接爬取URL地址

例如:URL:http:////list=sh600250

⑶通過HttpClient發(fā)送get請求,并對獲取的信息進行解碼

⑷對解碼后的字符串進行格式匹配處理(即方法Parse)

⑸返回所需要的正確格式

4.3 SMS短信收發(fā)模塊

與用戶的交互需要短信的收發(fā),系統(tǒng)高峰時需要幾十甚至幾百條的同時收發(fā)。因此選擇了目前SP(服務提供商)普遍使用的短信平臺(短信網(wǎng)關(guān))。

短信平臺是基于中國移動、中國聯(lián)通、中國電信提供的短信端口與互聯(lián)網(wǎng)連接的基礎(chǔ)上,實現(xiàn)與用戶指定號碼進行短信批量發(fā)送和自定義發(fā)送功能的綜合平臺。它分為軟件單機版(帶客戶端)CS 結(jié)構(gòu)和網(wǎng)絡共享版BS 結(jié)構(gòu)。本系統(tǒng)采用了網(wǎng)絡BS結(jié)構(gòu)的短信平臺,借助webservice接口實現(xiàn)與程序的對接。

4.3.1 發(fā)送短信

訪問web地址http:///smssendwebservice/

Service.asmx。調(diào)用.net中Web Services協(xié)議棧里的soap協(xié)議使用Smssend 方法:

用戶名:<UsrId>string</UsrId>

密碼:<UserKey>string</UserKey>

目標手機號碼:<PhoneNumber>string</PhoneNumber>

短信內(nèi)容:<SmsContent>string</SmsContent>

4.3.2 接收短信

調(diào)用QuerymoSms方法查詢用戶上行短信,訪問地址:http:///httpinterface/QueryMoSms.asp?UserId=&userkey=

UserId為短信平臺提供給你的賬號

userkey為短信平臺提供給你的賬號密碼

5.結(jié)束語

本文使用HtmlParser和 HttpClient構(gòu)建的一個簡易網(wǎng)絡爬蟲,通過詳細的系統(tǒng)設(shè)計分析,完成股票信息獲取、股票價格預警、公告提醒、短信平臺收發(fā)等模塊的開發(fā),實現(xiàn)股票信息預警系統(tǒng)從而更好服務用戶。

參考文獻

[1]張亮.基于HTMLParser和HttpClient的網(wǎng)絡爬蟲原理與實現(xiàn)[J].電腦編程技巧與維護,2011,20:94-103.