前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇大數(shù)據(jù)在云計(jì)算中的應(yīng)用范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。

關(guān)鍵詞:大數(shù)據(jù)技術(shù);計(jì)算機(jī);信息安全
隨著計(jì)算機(jī)信息技術(shù)的迅速發(fā)展,大數(shù)據(jù)技術(shù)在計(jì)算機(jī)信息安全提供了有利的條件。大數(shù)據(jù)技術(shù)對(duì)計(jì)算機(jī)信息安全的數(shù)據(jù)進(jìn)行快速的收集和分析,云計(jì)算技術(shù)對(duì)數(shù)據(jù)進(jìn)行加工處理。為計(jì)算機(jī)信息安全提供的可靠的基礎(chǔ)。同時(shí),大數(shù)據(jù)技術(shù)在數(shù)據(jù)分析的有效性有待進(jìn)一步的提高,這也是我們要攻克的難點(diǎn)。
1大數(shù)據(jù)技術(shù)在計(jì)算機(jī)信息安全中的應(yīng)用現(xiàn)狀
1.1大數(shù)據(jù)技術(shù)概述
大數(shù)據(jù)技術(shù)是一種現(xiàn)代化技術(shù),核心技術(shù)由大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析組成。具體處理的過(guò)程如圖1所示:先進(jìn)行數(shù)據(jù)采集,再對(duì)采集到的原始數(shù)據(jù)所進(jìn)行如圖2的數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)規(guī)約操作后,后進(jìn)行存儲(chǔ)和數(shù)據(jù)分析。得到高質(zhì)量的數(shù)據(jù)。隨著大數(shù)據(jù)技術(shù)的發(fā)展,在計(jì)算機(jī)信息安全中應(yīng)用更為突出。除此之外,必須要注意的是,大數(shù)據(jù)技術(shù)對(duì)于海量的數(shù)據(jù)在數(shù)據(jù)分析時(shí)也存在一定的困難。這也是本文研究的方向。
1.2大數(shù)據(jù)環(huán)境下面臨的計(jì)算機(jī)信息安全問(wèn)題
大數(shù)據(jù)技術(shù)已經(jīng)深入各行各業(yè),加上計(jì)算機(jī)信息的開(kāi)發(fā)性,對(duì)計(jì)算機(jī)信息安全帶來(lái)了問(wèn)題。在大數(shù)據(jù)技術(shù)的應(yīng)用過(guò)程中,沒(méi)有和各行各業(yè)的需求相融合。導(dǎo)致大數(shù)據(jù)技術(shù)給計(jì)算機(jī)信息安全帶來(lái)的效果不理想。所以實(shí)際使用期間,必須要深入理解用戶需求[1]。實(shí)施大數(shù)據(jù)技術(shù)的過(guò)程中,計(jì)算機(jī)信息存儲(chǔ)、信息的安全管理部到位,還有黑客的攻擊、病毒的侵入,使得計(jì)算機(jī)信息在傳輸?shù)倪^(guò)程或存儲(chǔ)過(guò)程中的信息被竊取,直接威脅計(jì)算機(jī)信息安全。
1.3大數(shù)據(jù)技術(shù)在計(jì)算機(jī)信息安全中的應(yīng)用現(xiàn)狀
目前,關(guān)于大數(shù)據(jù)技術(shù)在計(jì)算機(jī)信息安全中的應(yīng)用的研究比較多,并給出了相應(yīng)的保障計(jì)算機(jī)信息安全的方法和技術(shù)。在企業(yè)應(yīng)用領(lǐng)域,奇虎公司取得了業(yè)內(nèi)矚目的成果,其提出的“云+終端+邊界”安全模型囊括了360的系列計(jì)算機(jī)產(chǎn)品,也大有擴(kuò)張之勢(shì)頭,對(duì)于提高計(jì)算機(jī)信息安全保障質(zhì)量具有一定的指向意義。
2大數(shù)據(jù)技術(shù)在計(jì)算機(jī)信息安全中的關(guān)鍵技術(shù)
2.1云計(jì)算技術(shù)
在大數(shù)據(jù)技術(shù)、云計(jì)算技術(shù)的快速發(fā)展,大數(shù)據(jù)技術(shù)處理的海量數(shù)據(jù)的信息安全方面,云計(jì)算技術(shù)為大數(shù)據(jù)技術(shù)提供了強(qiáng)大的技術(shù)支持。云計(jì)算技術(shù)通常會(huì)采用分布式存儲(chǔ)技術(shù),將數(shù)據(jù)存儲(chǔ)在不同的物理設(shè)備中。這種模式不僅擺脫了硬件設(shè)備的限制,同時(shí)擴(kuò)展性更好,能夠快速響應(yīng)用戶需求的變化。從而保證數(shù)據(jù)的高可靠性和安全性[2]。
2.2加密技術(shù)
計(jì)算機(jī)信息化的快速發(fā)展,對(duì)于海量數(shù)據(jù)的處理必須滿足信息計(jì)算機(jī)信息的安全,必須對(duì)海量的進(jìn)行數(shù)據(jù)加密處理。在計(jì)算機(jī)信息的傳輸、保存期間定期檢測(cè)數(shù)據(jù),確保數(shù)據(jù)的安全性。同時(shí)在實(shí)踐操作中應(yīng)用數(shù)據(jù)加密安全技術(shù)[3],杜絕計(jì)算機(jī)信息安全問(wèn)題。
2.3數(shù)據(jù)備份技術(shù)
信息化的快速發(fā)展,給人們的生活提供了方便,但對(duì)計(jì)算機(jī)信息安全帶來(lái)風(fēng)險(xiǎn)。在大數(shù)據(jù)技術(shù)中,數(shù)據(jù)的備份技術(shù)起到了很大的作用。通過(guò)數(shù)據(jù)備份技術(shù)為計(jì)算機(jī)信息安全提供足夠的空間。目前在數(shù)據(jù)備份技術(shù)中,采用的存儲(chǔ)介質(zhì)為百度硬盤(pán)、移動(dòng)硬盤(pán)、U盤(pán)、光盤(pán)這四種。各個(gè)企事業(yè)單位根據(jù)本單位的需求,選擇相應(yīng)的存儲(chǔ)介質(zhì)。同時(shí)要做到以便在發(fā)生突發(fā)狀況時(shí),比如斷電、斷網(wǎng)等,快速啟動(dòng)數(shù)據(jù)備份系統(tǒng),防止數(shù)據(jù)丟失。
3大數(shù)據(jù)技術(shù)在計(jì)算機(jī)信息安全中的應(yīng)用
3.1大數(shù)據(jù)采集技術(shù)
大數(shù)據(jù)采集技術(shù)在數(shù)據(jù)采集過(guò)程中,要考慮數(shù)據(jù)的安全問(wèn)題,給予不同用戶有身份驗(yàn)證。同時(shí)采取數(shù)據(jù)信息加密技術(shù),利用數(shù)據(jù)傳輸過(guò)程的保真特點(diǎn)實(shí)現(xiàn)驗(yàn)證碼和附加碼的認(rèn)證過(guò)程,從而加強(qiáng)對(duì)數(shù)據(jù)信息的完整性保護(hù),繼而更好地滿足計(jì)算機(jī)網(wǎng)絡(luò)安全防范的實(shí)際需求[4]。
3.2大數(shù)據(jù)存儲(chǔ)技術(shù)
計(jì)算機(jī)信息的存儲(chǔ)及傳輸要對(duì)信息進(jìn)行保密和安全處理。大數(shù)據(jù)存儲(chǔ)技術(shù)為海量數(shù)據(jù)的存儲(chǔ)的安全性提供了保證。同時(shí)在計(jì)算機(jī)信息在信息的傳輸過(guò)程中,對(duì)計(jì)算機(jī)信息的數(shù)據(jù)進(jìn)行加密保護(hù)。大數(shù)據(jù)存儲(chǔ)和傳統(tǒng)的數(shù)據(jù)存儲(chǔ)的不相同,大數(shù)據(jù)技術(shù)應(yīng)用表現(xiàn)形式是實(shí)時(shí)性。數(shù)據(jù)以每年增長(zhǎng)50%的速度快速增長(zhǎng),特別是非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)。隨著信息時(shí)代的進(jìn)步,有越來(lái)越多的傳感器采集數(shù)據(jù)、移動(dòng)設(shè)備、社交多媒體等等,所以數(shù)據(jù)只能繼續(xù)大幅增長(zhǎng)??偠灾?,大數(shù)據(jù)儲(chǔ)存技術(shù)需要非常高性能、高吞吐率、大容量的基礎(chǔ)設(shè)備。
3.3大數(shù)據(jù)技術(shù)、云計(jì)算技術(shù)
大數(shù)據(jù)技術(shù)和云計(jì)算技術(shù)在計(jì)算機(jī)信息安全中的應(yīng)用是密不可分。大數(shù)據(jù)技術(shù)對(duì)計(jì)算信息安全的處理采用分布式結(jié)構(gòu)處理。通過(guò)云計(jì)算技術(shù)的分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)、虛擬化技術(shù)對(duì)海量數(shù)據(jù)的處理、存儲(chǔ)。給計(jì)算機(jī)信息安全提供支持無(wú)論你采取何種數(shù)據(jù)分析模型,還是運(yùn)算方式,它都是通過(guò)將海量的服務(wù)器資源通過(guò)網(wǎng)絡(luò)進(jìn)行整合,以整理出有效的數(shù)據(jù)信息,并將其分配給各個(gè)相對(duì)應(yīng)的客戶,來(lái)處理因存儲(chǔ)資源不足給用戶帶來(lái)的問(wèn)題。大數(shù)據(jù)技術(shù)是海量數(shù)據(jù)爆發(fā)式增長(zhǎng)所帶來(lái)的一個(gè)全新的研究領(lǐng)域,對(duì)于大數(shù)據(jù)的研究,主要集中在如何對(duì)其進(jìn)行存儲(chǔ)和有效的分析,大數(shù)據(jù)是依靠云計(jì)算技術(shù)來(lái)進(jìn)行存儲(chǔ)和計(jì)算的。通過(guò)大數(shù)據(jù)技術(shù)和云計(jì)算技術(shù)的配合使用,給計(jì)算機(jī)信息安全帶來(lái)便利。
4大數(shù)據(jù)技術(shù)在計(jì)算機(jī)信息安全中的應(yīng)用展望
4.1建立安全服務(wù)后臺(tái)
建立安全服務(wù)后臺(tái)的,將通過(guò)對(duì)計(jì)算機(jī)信息進(jìn)行認(rèn)證、授權(quán)、監(jiān)控、分析、預(yù)警及響應(yīng)等服務(wù)管理,實(shí)時(shí)提供信息服務(wù)。大數(shù)據(jù)技術(shù)的應(yīng)用,有效解決了海量數(shù)據(jù)的處理,為計(jì)算機(jī)信息安全提供了保證。
4.2大數(shù)據(jù)技術(shù)的安全智能化發(fā)展
為了預(yù)防計(jì)算機(jī)病毒的入侵和黑客的攻擊,必須建立計(jì)算機(jī)智能化發(fā)展。有效預(yù)防和解決這些問(wèn)題,在計(jì)算機(jī)信息安全維護(hù)中,對(duì)于計(jì)算機(jī)信息安全的智能化判定快速的提升,是值得大數(shù)據(jù)技術(shù)、云計(jì)算技術(shù)參考學(xué)習(xí)。
關(guān)鍵詞:大數(shù)據(jù);應(yīng)用感知;云計(jì)算;軟件定義網(wǎng)絡(luò);云存儲(chǔ)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2017)07-00-06
0 引 言
大數(shù)據(jù)(Big Data)[1]可被定義為具有4V特征的數(shù)據(jù),即數(shù)據(jù)量及規(guī)模巨大且持續(xù)增長(zhǎng)(Volume,一般指數(shù)據(jù)量達(dá)到PB以上級(jí)別);多源/多樣/多結(jié)構(gòu)性,不同的數(shù)據(jù)源、數(shù)據(jù)類型(Variety,復(fù)雜文檔及多媒體,結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù));高速性,由于存在用戶數(shù)量龐大與實(shí)時(shí)性等因素,數(shù)據(jù)的生成、增長(zhǎng)速率快,數(shù)據(jù)處理、分析的速度要求也高(Velocity);有價(jià)值性/精確性,數(shù)據(jù)量龐大,雖然價(jià)值密度低或個(gè)別數(shù)據(jù)無(wú)價(jià)值,但數(shù)據(jù)總體上是有價(jià)值的(Value/Veracity)。
大數(shù)據(jù)環(huán)境已成熟,云計(jì)算中的大數(shù)據(jù)分析/處理,大數(shù)據(jù)處理與網(wǎng)絡(luò)/硬件的協(xié)同工作,大數(shù)據(jù)的私有性及云平臺(tái)的能耗等方面對(duì)網(wǎng)絡(luò)及其資源調(diào)度的需求,使得大數(shù)據(jù)應(yīng)用與物理網(wǎng)絡(luò)之間的交互尤顯重要,一方面讓網(wǎng)絡(luò)呈現(xiàn)出“應(yīng)用感知網(wǎng)絡(luò)(Application Aware)”的特性,使之更好地服務(wù)于大數(shù)據(jù)應(yīng)用;另一方面,如何讓大數(shù)據(jù)應(yīng)用/用戶方便高效地訪問(wèn)、調(diào)度網(wǎng)絡(luò)資源,減輕大數(shù)據(jù)應(yīng)用在網(wǎng)絡(luò)訪問(wèn)決策上的負(fù)擔(dān)是當(dāng)前大數(shù)據(jù)應(yīng)用研究中的熱點(diǎn)問(wèn)題。
1 云計(jì)算環(huán)境下的虛擬化
云計(jì)算[2]作為下一代計(jì)算模式,具有超大規(guī)模、高可擴(kuò)展性、高可靠性、虛擬化、按需服務(wù)和價(jià)格低廉等特點(diǎn),通過(guò)調(diào)用網(wǎng)絡(luò)中大量計(jì)算節(jié)點(diǎn)/服務(wù)器完成核心計(jì)算業(yè)務(wù)的任務(wù),向用戶提供多層次的服務(wù)如基礎(chǔ)設(shè)施、平臺(tái)、存儲(chǔ)服務(wù)和軟件服務(wù)等。在大數(shù)據(jù)應(yīng)用中,云計(jì)算的核心功能主要有數(shù)據(jù)存儲(chǔ)/管理(以數(shù)據(jù)存儲(chǔ)為主的存儲(chǔ)型云平臺(tái))和數(shù)據(jù)分析/處理(以數(shù)據(jù)處理為主的計(jì)算型云平臺(tái))。云計(jì)算提供商將大量計(jì)算節(jié)點(diǎn)與網(wǎng)絡(luò)設(shè)備連在一起,構(gòu)建一個(gè)或若干個(gè)大規(guī)模(由具有萬(wàn)甚至百萬(wàn)級(jí)以上的計(jì)算節(jié)點(diǎn)所組成)數(shù)據(jù)中心,通過(guò)云平臺(tái)實(shí)時(shí)訪問(wèn)、調(diào)用網(wǎng)絡(luò)、存儲(chǔ)、計(jì)算等資源為用戶服務(wù)。
云計(jì)算核心組成邏輯如圖1所示。云計(jì)算主要由服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)組成。為了使得云能夠更快、更方便地響應(yīng)企業(yè)用戶的需求,服務(wù)器(層)和存儲(chǔ)(層)已經(jīng)通過(guò)在實(shí)際基礎(chǔ)設(shè)施和云環(huán)境之間構(gòu)建抽象層實(shí)現(xiàn)虛擬化,滿足配置、管理和使用服務(wù)器及存儲(chǔ)資源的要求。但最終還需要依靠網(wǎng)絡(luò)將資源連接集成以搭建一個(gè)完整的云環(huán)境?!按髷?shù)據(jù)應(yīng)用環(huán)境下與網(wǎng)絡(luò)的交互”以及“網(wǎng)絡(luò)與計(jì)算資源的交互”面臨以下三方面的要求:
(1)大數(shù)據(jù)應(yīng)用層與網(wǎng)絡(luò)的交互:網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)穩(wěn)定,但由于云環(huán)境的高擴(kuò)展性以及節(jié)點(diǎn)規(guī)模的龐大,使得服務(wù)器和存儲(chǔ)這兩方面的資源會(huì)時(shí)常發(fā)生變化,如服務(wù)器/節(jié)點(diǎn)的添加――斷電、故障、恢復(fù)、新增節(jié)點(diǎn)等或存儲(chǔ)磁盤(pán)的故障、失效等。面對(duì)這些變化,上層大數(shù)據(jù)應(yīng)用如何能更好、更快地獲取計(jì)算資源的變化?
圖1 云計(jì)算核心組成邏輯圖
(2)計(jì)算資源與網(wǎng)絡(luò)的交互:在大數(shù)據(jù)處理中,各計(jì)算資源的狀態(tài)與承擔(dān)的任務(wù)及負(fù)荷各不相同,為合理使用計(jì)算資源并計(jì)算資源負(fù)載平衡,網(wǎng)絡(luò)如何能更快更方便地告知上層大數(shù)據(jù)應(yīng)用其所獲得的感知信息,并讓?xiě)?yīng)用或用戶調(diào)整其調(diào)用計(jì)算資源的策略?
(3)計(jì)算資源按上層大數(shù)據(jù)應(yīng)用的需求動(dòng)態(tài)調(diào)整:上層應(yīng)用復(fù)雜多變,面對(duì)應(yīng)用/服務(wù)的變化,其所需的計(jì)算資源也不同,如何更快地調(diào)整、組織計(jì)算資源讓其適應(yīng)并為上層應(yīng)用提供服務(wù)?
為滿足上述需求,添加兩個(gè)具有擴(kuò)展性的接口層形成大數(shù)據(jù)應(yīng)用與計(jì)算資源(服務(wù)器/存儲(chǔ))的中間層,這兩個(gè)接口層如下:
(1)大數(shù)據(jù)應(yīng)用層與網(wǎng)絡(luò)層之間的交互接口層;
(2)網(wǎng)絡(luò)層與計(jì)算資源層(服務(wù)器/存儲(chǔ))之間的交互接口層。
2 開(kāi)放式協(xié)同平臺(tái)的中介――SDN
2011年10月,美國(guó)麻省理工大學(xué)Kate Greene教授提出了SDN (Software-Defined Networking,SDN)軟件定義網(wǎng)絡(luò)技術(shù)的概念[3]。所謂SDN,是指根據(jù)不同的使用需要,通過(guò)軟件來(lái)完成所有路由器與交換機(jī)的動(dòng)態(tài)配置。并于2011年3月成立了以實(shí)現(xiàn)該概念為目的的網(wǎng)絡(luò)聯(lián)盟Open Network Foundation (ONF),提倡使用OpenFlow作為實(shí)現(xiàn)SDN的重要技術(shù)。
OpenFlow網(wǎng)絡(luò)的最大特點(diǎn)是將傳統(tǒng)的交換機(jī)路由控制部分與數(shù)據(jù)傳送部分分離,使得網(wǎng)絡(luò)設(shè)備可以專注于數(shù)據(jù)包轉(zhuǎn)發(fā),從而極大地簡(jiǎn)化了交換機(jī)的體系。OpenFlow網(wǎng)絡(luò)的主要構(gòu)成元素包括支持OpenFlow協(xié)議的交換機(jī)(OpenFlow Switch),交換機(jī)控制器(OpenFlow Controller)以及用于交換機(jī)與控制器之間的控制協(xié)議(OpenFlow Protocol),其體系結(jié)構(gòu)如圖2所示。
OpenFlowW絡(luò)可以處理包含在數(shù)據(jù)包中的各種信息,如MAC地址,IP地址,VLANID,MPLS標(biāo)識(shí),TCP端口等共15類,將這些信息與數(shù)據(jù)包的處理方法相結(jié)合,用于設(shè)計(jì)OpenFlow交換機(jī)的Flow Table。Flow Table即數(shù)據(jù)包的處理規(guī)則與處理方法對(duì)照表,如對(duì)含有特定VLANID信息的數(shù)據(jù)包執(zhí)行數(shù)據(jù)包轉(zhuǎn)發(fā)、丟棄或多播等操作。
網(wǎng)絡(luò)管理人員通過(guò)對(duì)Flow Table進(jìn)行詳細(xì)設(shè)計(jì)便可輕松實(shí)現(xiàn)對(duì)數(shù)據(jù)包交換路徑的精準(zhǔn)控制。隨著云計(jì)算應(yīng)用的不斷增多,頻繁的網(wǎng)絡(luò)重新配置不可避免。VLAN組網(wǎng)技術(shù)支持網(wǎng)絡(luò)管理員動(dòng)態(tài)對(duì)網(wǎng)絡(luò)進(jìn)行配置,是目前HDFS云存儲(chǔ)的主要組網(wǎng)技術(shù)。但VLAN組網(wǎng)技術(shù)面臨以下問(wèn)題:
(1)當(dāng)子網(wǎng)數(shù)量不斷增加時(shí),采用VLAN對(duì)網(wǎng)絡(luò)進(jìn)行管理將會(huì)使情況變得很復(fù)雜;
(2)只能利用VLANID進(jìn)行組網(wǎng),組網(wǎng)的靈活性不高,無(wú)法適應(yīng)來(lái)自云計(jì)算的不同需求。
(3)除電信運(yùn)營(yíng)商級(jí)的VLAN技術(shù)外,數(shù)據(jù)中心級(jí)VLAN技術(shù)幾乎不能實(shí)現(xiàn)異地云存儲(chǔ)服務(wù)器之間的連接。異地云存儲(chǔ)系統(tǒng)互連的重要性在于通過(guò)將數(shù)據(jù)備份在不同的物理地點(diǎn)來(lái)消除單一故障(電力中斷,火災(zāi)等)引起的服務(wù)中斷,這正是ONF聯(lián)盟將OpenFlow列為云計(jì)算網(wǎng)絡(luò)控制技術(shù)之一的主要原因。
圖2 OpenFlow體系架構(gòu)
3 存在問(wèn)題及分析
3.1 從大數(shù)據(jù)處理的角度分析
在大數(shù)據(jù)應(yīng)用的環(huán)境下,大數(shù)據(jù)分析/處理的計(jì)算框架以MapReduce編程模型最具代表性。MapReduce計(jì)算模型在執(zhí)行中,首先對(duì)數(shù)據(jù)源進(jìn)行分塊,然后交給不同Map任務(wù)區(qū)來(lái)處理,執(zhí)行Map函數(shù),根據(jù)數(shù)據(jù)處理的規(guī)則對(duì)數(shù)據(jù)分類,并寫(xiě)入本地磁盤(pán);Map階段完成后,進(jìn)入Reduce階段,執(zhí)行Reduce函數(shù),具有同樣Key值的中間結(jié)果從多個(gè)Map任務(wù)所在的節(jié)點(diǎn)被收集到一起(稱為Shuffle)進(jìn)行合并處理(稱為Merge),輸出結(jié)果寫(xiě)入本地磁盤(pán)。最終通過(guò)合并所有Reduce任務(wù)得到最終結(jié)果。
以MapReduce計(jì)算模型為基本核心原理,相似的計(jì)算模型有如下幾種:
Hadoop[4]:核心由HDFS和MapReduce組成,其中Hadoop-MapReduce是Google MapReduce的開(kāi)源實(shí)現(xiàn)。
Dryad[5]:與MapReduce計(jì)算模型相似,其總體構(gòu)建用來(lái)支持有向無(wú)環(huán)圖(Directed Acycline Graph,DAG)類型數(shù)據(jù)流的并行程序。Dryad的整體框架根據(jù)程序的要求完成調(diào)度工作,自動(dòng)完成任務(wù)在各節(jié)點(diǎn)上的運(yùn)行。
Hadoop++[6]:Hadoop++是通過(guò)自定義Hadoop框架中的split等函數(shù)來(lái)提升數(shù)據(jù)查詢和聯(lián)接性能,即通過(guò)Hadoop用戶自定義函數(shù)方式對(duì)Hadoop-MapReduce實(shí)現(xiàn)非入侵式優(yōu)化。
CoHadoop[7]:Hadoop無(wú)法突破把相關(guān)數(shù)據(jù)定位到同一個(gè)node集合下的性能瓶頸。CoHadoop是對(duì)Hadoop的一個(gè)輕量級(jí)擴(kuò)展,目的是允許應(yīng)用層控制數(shù)據(jù)的存儲(chǔ)。應(yīng)用層通過(guò)某種方式提示CoHadoop某些集合里的文件相關(guān)性較大,可能需要合并,之后CoHadoop嘗試轉(zhuǎn)移這些文件以提高數(shù)據(jù)讀取效率。MapReduce計(jì)算過(guò)程示意如圖3所示。
圖3 MapReduce計(jì)算過(guò)程示意圖
Haloop[8]:Haloop是一個(gè)Hadoop-MapReduce框架的修改版本,其目標(biāo)是為了高效支持迭代,遞歸數(shù)據(jù)分析任務(wù)。遞歸的連接可能在Map端,也可能在Reduce端。Haloop的基本思想是緩存循環(huán)不變量(即靜態(tài)變量)到salve nodes。每次迭代重用這些數(shù)據(jù)。
HadoopDB[9]:HadoopDB是一混合系統(tǒng)。其基本思想是采用現(xiàn)有的MapReduce作為與正在運(yùn)行著單節(jié)點(diǎn)DBMS實(shí)例的多樣化節(jié)點(diǎn)的通信層,實(shí)現(xiàn)并行化數(shù)據(jù)庫(kù)。查詢語(yǔ)言采用SQL表示,并使用現(xiàn)有工具將其翻譯成MapReduce可以接受的語(yǔ)言,使得盡可能多的任務(wù)被推送到每個(gè)高性能的單節(jié)點(diǎn)數(shù)據(jù)庫(kù)。
G-Hadoop[10]:通過(guò)現(xiàn)有的MapReduce計(jì)算模型配合高速的存儲(chǔ)區(qū)域網(wǎng)(Storage Area Network,SAN)實(shí)現(xiàn)在多群聚環(huán)境,為大數(shù)據(jù)應(yīng)用提供一個(gè)并行處理的環(huán)境。
P2P-MapReduce[11]:是一個(gè)動(dòng)態(tài)分布式環(huán)境中自適應(yīng)的MapReduce框架(2P-MapReduce),利用P2P模式在動(dòng)態(tài)分布式環(huán)境中管理計(jì)算節(jié)點(diǎn)的參與、主機(jī)失敗和作業(yè)恢復(fù)等,為大數(shù)據(jù)應(yīng)用提供服務(wù)。
Spark[12]:Spark是一個(gè)與Hadoop相似的開(kāi)源云計(jì)算系統(tǒng),支持分布式數(shù)據(jù)集上的迭代作業(yè),是對(duì)Hadoop的補(bǔ)充,用于快速數(shù)據(jù)分析,包括快速運(yùn)行和快速寫(xiě)操作。Spark啟用內(nèi)存分布數(shù)據(jù)集,除能夠提供交互式查詢外,還可優(yōu)化迭代工作負(fù)載。
Hyracks[13]:一個(gè)受MapReduce啟發(fā),基于分區(qū)并行數(shù)據(jù)流的大數(shù)據(jù)并行處理系統(tǒng),用戶可將計(jì)算表示成數(shù)據(jù)操作器和連接器的有向無(wú)環(huán)圖(Directed Acycline Graph,DAG)類型數(shù)據(jù)流。
大數(shù)據(jù)處理框架的設(shè)計(jì)思想見(jiàn)表1所列。
(1)MapReduce計(jì)算執(zhí)行過(guò)程中的Shuffle階段――執(zhí)行完Map階段后會(huì)產(chǎn)生大量中間結(jié)果數(shù)據(jù),該階段根據(jù)中間輸出結(jié)果中的Key值進(jìn)行分類并分發(fā)到相關(guān)節(jié)點(diǎn)執(zhí)行Reduce函數(shù);
(2)其余類MapReduce計(jì)算模式、迭代、遞歸等也需要進(jìn)行大量分片和合并操作。
在這兩個(gè)過(guò)程中產(chǎn)生的大量中間結(jié)果數(shù)據(jù)要在不同的節(jié)點(diǎn)(Map節(jié)點(diǎn)/Reduce節(jié)點(diǎn))之間傳輸,數(shù)據(jù)規(guī)模越大、參與計(jì)算的節(jié)點(diǎn)越多、Map-Reduce的迭代/遞歸次數(shù)越多,節(jié)點(diǎn)間傳輸?shù)念l度及數(shù)據(jù)量也越大,占用網(wǎng)絡(luò)的帶寬及時(shí)間也越長(zhǎng),最終可能導(dǎo)致網(wǎng)絡(luò)擁擠與堵塞,嚴(yán)重影響大數(shù)據(jù)處理框架的性能。
缺乏應(yīng)用感知網(wǎng)絡(luò)的支持,這些大數(shù)據(jù)處理框架其性能得不到很好的發(fā)揮,因此,在大數(shù)據(jù)處理框架與網(wǎng)絡(luò)之間構(gòu)建一抽象層,通過(guò)抽象層實(shí)現(xiàn)大數(shù)據(jù)處理框架與網(wǎng)絡(luò)之間的交互是一個(gè)有效的解決方式。一方面大數(shù)據(jù)處理框架無(wú)需修改現(xiàn)有的計(jì)算模式,直接通過(guò)該層告知基礎(chǔ)設(shè)施其所需計(jì)算資源的類別,而非特定的某一計(jì)算資源,從而讓計(jì)算資源調(diào)度策略從數(shù)據(jù)處理框架中脫離出來(lái),使得計(jì)算過(guò)程主要關(guān)注數(shù)據(jù)的分析/處理,減輕大數(shù)據(jù)處理框架的包袱;另一方面通過(guò)該抽象層為第三方提供網(wǎng)絡(luò)訪問(wèn)/調(diào)整的接口,在網(wǎng)絡(luò)物理結(jié)構(gòu)不變的前提下按大數(shù)據(jù)應(yīng)用需求調(diào)整網(wǎng)絡(luò)邏輯結(jié)構(gòu),方便資源調(diào)度策略的優(yōu)化和實(shí)施,構(gòu)建應(yīng)用感知網(wǎng)絡(luò)更好地為大數(shù)據(jù)應(yīng)用提供服務(wù)。
3.2 從云存儲(chǔ)的角度分析
在大數(shù)據(jù)應(yīng)用的環(huán)境下,存儲(chǔ)是核心的組成之一,HDFS(Hadoop Distributed File System,HDFS)是當(dāng)前主流的一款開(kāi)源云存儲(chǔ)框架,是一個(gè)分布式文件系統(tǒng),更是適合運(yùn)行在普通硬件上的分布式高容錯(cuò)文件系統(tǒng),當(dāng)前絕大多數(shù)云存儲(chǔ)系統(tǒng)都通過(guò)HDFS實(shí)現(xiàn)。
HDFS的系統(tǒng)架構(gòu)如圖4所示。
HDFS采用Master/Slave架構(gòu)。HDFS主要由Namenode(master)和一系列Datanode(workers)構(gòu)成。一個(gè)HDFS集群由一個(gè)Namenode和一定數(shù)目的Datanode組成。HDFS支持傳統(tǒng)的層次型文件組織。Namenode是一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的namespace以及客舳碩暈?zāi)嫉脑L問(wèn)。HDFS有著高容錯(cuò)性的特點(diǎn),部署在低廉的硬件上,提供高傳輸率來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),是為以流的方式存取大文件而設(shè)計(jì),適合擁有超大數(shù)據(jù)集的應(yīng)用程序。HDFS支持大數(shù)據(jù)文件,能夠提供大數(shù)據(jù)傳輸?shù)膸捄蛿?shù)百個(gè)節(jié)點(diǎn)的集群服務(wù),能夠支持千萬(wàn)級(jí)別的文件。所有的HDFS通訊協(xié)議都構(gòu)建在TCP/IP協(xié)議上。HDFS設(shè)計(jì)目標(biāo)對(duì)網(wǎng)絡(luò)的需求:
(1)硬件故障/錯(cuò)誤及副本策略
硬件故障/錯(cuò)誤是常態(tài)而非異常。HDFS集群由成百上千的服務(wù)器構(gòu)成,每個(gè)服務(wù)器上存儲(chǔ)著文件系統(tǒng)中數(shù)據(jù)的一部分,任一個(gè)服務(wù)器都有可能失效。因此錯(cuò)誤檢測(cè)和快速、自動(dòng)恢復(fù)是HDFS最為核心的架構(gòu)目標(biāo)。此時(shí),在網(wǎng)絡(luò)上需解決網(wǎng)絡(luò)可用的計(jì)算節(jié)點(diǎn)數(shù)量減少,一部分文件的可用副本數(shù)減少等問(wèn)題。為確保文件副本的數(shù)量,數(shù)據(jù)需備份,以防故障。
(2)流式數(shù)據(jù)訪問(wèn)
HDFS應(yīng)用程序需要流式訪問(wèn)數(shù)據(jù)集。HDFS進(jìn)行的是數(shù)據(jù)批處理,而非用戶交互處理;相比數(shù)據(jù)訪問(wèn)的低延遲,更應(yīng)保證數(shù)據(jù)訪問(wèn)的高吞吐量。
(3)大規(guī)模數(shù)據(jù)集
大數(shù)據(jù)應(yīng)用中的應(yīng)用程序是在大規(guī)模數(shù)據(jù)集基礎(chǔ)上的計(jì)算。HDFS上一個(gè)典型文件的大小一般都為G字節(jié)至T字節(jié)。因此,大文件存儲(chǔ)且能提供整體上數(shù)據(jù)傳輸?shù)母邘?,能在一個(gè)集群里擴(kuò)展到數(shù)百個(gè)節(jié)點(diǎn),使得網(wǎng)絡(luò)中的計(jì)算節(jié)點(diǎn)之間、存儲(chǔ)節(jié)點(diǎn)之間必然有大量數(shù)據(jù)傳輸。
(4)計(jì)算移到數(shù)據(jù)附近
數(shù)據(jù)離應(yīng)用程序越近,計(jì)算就越高效,尤其是在數(shù)據(jù)達(dá)到海量級(jí)別時(shí)。因?yàn)檫@樣就能降低網(wǎng)絡(luò)阻塞的影響,提高系統(tǒng)數(shù)據(jù)的吞吐量。
(5)數(shù)據(jù)復(fù)制及副本存放
HDFS能夠在集群機(jī)器上可靠地存儲(chǔ)超大文件,其將文件分割成若干“塊”,除了最后一個(gè),所有“塊”大小一致。為了容錯(cuò),文件的所有數(shù)據(jù)塊都有副本。每個(gè)文件的數(shù)據(jù)塊大小和副本系數(shù)都可配置,應(yīng)用程序可以指定某個(gè)文件的副本數(shù)目。數(shù)據(jù)復(fù)制與采用的副本策略有關(guān),且由于故障、更新、備份(HA的主要解決方案:Hadoop的元數(shù)據(jù)備份方案、Secondary NameNode方案、Checkpoint node方案、Backup Node方案、DRDB、Facebook的Avatarnode方案)等原因,數(shù)據(jù)復(fù)制經(jīng)常發(fā)生在同機(jī)架的不同存儲(chǔ)節(jié)點(diǎn)之間及不同機(jī)架的不同存儲(chǔ)節(jié)點(diǎn)之間,這個(gè)過(guò)程必然依靠網(wǎng)絡(luò)。
其他一些云存儲(chǔ)系統(tǒng)如GFS(HDFS是GFS的開(kāi)源實(shí)現(xiàn))、CoHadoop、StorNext FS、Lustr、Total Storage SAN File System、DDFS(Disco Distributed File System)等,其設(shè)計(jì)目標(biāo)主要為上述幾個(gè)方面。
云存儲(chǔ)系統(tǒng)設(shè)計(jì)目標(biāo)的實(shí)現(xiàn)依賴于暢通的網(wǎng)絡(luò)。云存儲(chǔ)作為大數(shù)據(jù)應(yīng)用的核心支撐,其效能直接影響到大數(shù)據(jù)應(yīng)用的性能,云存儲(chǔ)框架與網(wǎng)絡(luò)及計(jì)算資源的(服務(wù)器/存儲(chǔ))高耦合(數(shù)據(jù)調(diào)度、存儲(chǔ)調(diào)度、副本存放、數(shù)據(jù)操作等與具體計(jì)算資源的選擇與使用高耦合)關(guān)系,將影響應(yīng)用框架的可擴(kuò)展性。在云存儲(chǔ)的文件操作與網(wǎng)絡(luò)中的存儲(chǔ)資源之間插入中間抽象層,云存儲(chǔ)系統(tǒng)只需告知抽象層申請(qǐng)的計(jì)算資源的類別,通過(guò)抽象層與計(jì)算資源之間的接口訪問(wèn)某類資源,實(shí)現(xiàn)文件的相關(guān)操作,一方面能方便地直接訪問(wèn)抽象層反饋的計(jì)算資源集,另一方面將操作的具體實(shí)現(xiàn)過(guò)程標(biāo)準(zhǔn)化,通過(guò)抽象的接口簡(jiǎn)化云存儲(chǔ)系統(tǒng)的操作。
3.3 從大數(shù)據(jù)分析/處理任務(wù)調(diào)度的角度分析
大數(shù)據(jù)分析/處理都在集群(Cluster)的基礎(chǔ)上完成,通過(guò)網(wǎng)絡(luò)連接多個(gè)成為節(jié)點(diǎn)的計(jì)算機(jī)為應(yīng)用提供計(jì)算、數(shù)據(jù)存儲(chǔ)和通信資源等。以Hadoop集群所提供的大數(shù)據(jù)分析/處理為代表,Hadoop集群中節(jié)點(diǎn)負(fù)責(zé)數(shù)據(jù)存儲(chǔ)、集群維護(hù)管理和數(shù)據(jù)分析/處理的任務(wù)。在作業(yè)/任務(wù)調(diào)度中,分為JobTracker(控制節(jié)點(diǎn))和TaskTracker(任務(wù)節(jié)點(diǎn)/執(zhí)行節(jié)點(diǎn))。一般情況下,Namenode和 JobTracker合并在同一臺(tái)物理服務(wù)器上,Datanode和TaskTracker作為集群的主要部分也會(huì)被安裝在相同節(jié)點(diǎn)上且大量散布于集群中。
集群結(jié)構(gòu)如圖5所示[14,15]。
控制節(jié)點(diǎn)負(fù)責(zé)HDFS和MapReduce執(zhí)行的管理(JobTracker),其余節(jié)點(diǎn)為執(zhí)行節(jié)點(diǎn)(TaskTracker),負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和計(jì)算。任務(wù)調(diào)度是JobTracker指派任務(wù)(tasks)到相應(yīng)TaskTracker上執(zhí)行的過(guò)程。任務(wù)調(diào)度過(guò)程如下:
(1)JobTracker調(diào)度和管理其它TaskTracker,并將Map任務(wù)和Reduce任務(wù)分發(fā)給空閑的TaskTracker,讓這些任務(wù)并行運(yùn)行,并負(fù)責(zé)監(jiān)控任務(wù)的運(yùn)行情況。
(2)TaskTracker負(fù)責(zé)具體任務(wù)的執(zhí)行,并向JobTracker報(bào)告自己所處的狀態(tài),接受其管理調(diào)度;一個(gè)重要的任務(wù)是原始輸入數(shù)據(jù)和中間運(yùn)算結(jié)果的存儲(chǔ)和傳遞(在網(wǎng)絡(luò)中不同TaskTracker之間傳遞中間結(jié)果數(shù)據(jù))。
(3)JobTracker和TaskTracker之間通過(guò)網(wǎng)絡(luò)以心跳機(jī)制實(shí)現(xiàn)通信。
(4)當(dāng)一個(gè)Map任務(wù)被分配到執(zhí)行節(jié)點(diǎn)執(zhí)行時(shí),系統(tǒng)會(huì)移動(dòng)Map計(jì)算程序到該節(jié)點(diǎn)――在數(shù)據(jù)存儲(chǔ)的Datanode節(jié)點(diǎn)上執(zhí)行這部分?jǐn)?shù)據(jù)的計(jì)算,以減少數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸,降低對(duì)網(wǎng)絡(luò)帶寬的需求。
(5)在一個(gè)Reduce任務(wù)被分配到一個(gè)空閑的TaskTracker節(jié)點(diǎn)上執(zhí)行時(shí),JobTracker會(huì)先將中間結(jié)果的key/value對(duì)在執(zhí)行Map任務(wù)的TaskTracker節(jié)點(diǎn)上局部磁盤(pán)位置信息發(fā)送給Reduce任務(wù),Reduce任務(wù)采用遠(yuǎn)程過(guò)程調(diào)用機(jī)制從Map任務(wù)節(jié)點(diǎn)的磁盤(pán)中讀取數(shù)據(jù)。
任務(wù)/作業(yè)調(diào)度方法直接關(guān)系到Hadoop集群的整體系統(tǒng)和系統(tǒng)資源的利用情況。針對(duì)MapReduce集群先后提出了很多調(diào)度策略,包括FIFO調(diào)度、HOD調(diào)度、計(jì)算能力調(diào)度、公平{度等。
在任務(wù)/作業(yè)的調(diào)度中,無(wú)論何種調(diào)度策略,對(duì)網(wǎng)絡(luò)的使用及需求如下:
(1)JobTracker在分配任務(wù)前,必須與該任務(wù)使用的數(shù)據(jù)源所存儲(chǔ)的節(jié)點(diǎn)(節(jié)點(diǎn)集)建立聯(lián)系,并通過(guò)節(jié)點(diǎn)的空閑狀態(tài)以判斷是否在該節(jié)點(diǎn)啟動(dòng)任務(wù)。針對(duì)一個(gè)文件,其被劃分為多個(gè)塊存儲(chǔ)在各節(jié)點(diǎn)上,每個(gè)文件塊對(duì)應(yīng)多個(gè)(默認(rèn)設(shè)置為3)副本,每個(gè)副本存儲(chǔ)在不同的節(jié)點(diǎn)上,因此,一個(gè)任務(wù)對(duì)應(yīng)要判斷多個(gè)節(jié)點(diǎn)的狀態(tài)。當(dāng)多個(gè)任務(wù)并行時(shí),JobTracker要審閱大規(guī)模節(jié)點(diǎn)的狀態(tài),當(dāng)前JobTracker節(jié)點(diǎn)與這些節(jié)點(diǎn)之間的網(wǎng)絡(luò)狀態(tài)對(duì)任務(wù)啟動(dòng)的策略及判斷有非常大的影響;
(2)JobTracker無(wú)法判斷及獲知被選中的計(jì)算節(jié)點(diǎn)的當(dāng)前網(wǎng)絡(luò)狀況及其歷史網(wǎng)絡(luò)情況,因此計(jì)算節(jié)點(diǎn)的網(wǎng)絡(luò)狀況這一因素在任務(wù)調(diào)度中被忽略,不利于有效利用網(wǎng)絡(luò)以提高大數(shù)據(jù)分析/處理性能;
(3)在Reduce任務(wù)分配時(shí),JobTracker由于不了解TaskTracker節(jié)點(diǎn)的當(dāng)前網(wǎng)絡(luò)狀況及其歷史網(wǎng)絡(luò)情況,無(wú)法根據(jù)TaskTracker節(jié)點(diǎn)的網(wǎng)絡(luò)狀況來(lái)選擇最優(yōu)的節(jié)點(diǎn)啟動(dòng)Reduce任務(wù),故無(wú)法高效快速地獲取Map任務(wù)產(chǎn)生的大量中間數(shù)據(jù),從而影響了數(shù)據(jù)分析/處理的性能;
(4)在任務(wù)執(zhí)行的過(guò)程中,JobTracker與大規(guī)模的TaskTracker節(jié)點(diǎn)之間利用網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)心跳機(jī)制的通信,JobTracker需要有穩(wěn)定的網(wǎng)絡(luò)來(lái)支持。
其它如表1所列的大數(shù)據(jù)處理框架中的任務(wù)調(diào)度也存在類似問(wèn)題。所以,針對(duì)上述問(wèn)題,在計(jì)算資源及網(wǎng)絡(luò)的上層架設(shè)一抽象層,負(fù)責(zé)統(tǒng)計(jì)網(wǎng)絡(luò)的當(dāng)前狀況及各節(jié)點(diǎn)的網(wǎng)絡(luò)狀態(tài),維護(hù)計(jì)算資源的狀態(tài),任務(wù)調(diào)度器只需向該抽象層提出執(zhí)行的任務(wù)(主要為T(mén)askTracker的任務(wù))及申請(qǐng)使用的計(jì)算資源的類別,從抽象層中獲取得到相應(yīng)類別的計(jì)算資源,最后執(zhí)行任務(wù)。通過(guò)架設(shè)這一抽象層,可以做到:
(1)大數(shù)據(jù)應(yīng)用環(huán)境下的任務(wù)調(diào)度器,只需關(guān)注調(diào)度策略及使用的計(jì)算資源類別,抽象層負(fù)責(zé)維護(hù)具體的計(jì)算資源的狀態(tài),反饋告知調(diào)度器可按需查詢抽象層中所維護(hù)的計(jì)算資源的信息,實(shí)現(xiàn)計(jì)算資源對(duì)調(diào)度器的虛擬化;
(2)通過(guò)向抽象層中加載針對(duì)計(jì)算資源狀態(tài)分析、網(wǎng)絡(luò)歷史情況分析及節(jié)點(diǎn)網(wǎng)絡(luò)狀況分析的第三方策略獲得計(jì)算資源的最優(yōu)或次優(yōu)集,能更有效地利用網(wǎng)絡(luò)來(lái)優(yōu)化任務(wù)調(diào)度,通過(guò)提供計(jì)算資源調(diào)度策略的接口,有利于提高當(dāng)前計(jì)算框架的數(shù)據(jù)分析/處理性能;
(3)由于抽象層對(duì)任務(wù)調(diào)度器反饋的是某類計(jì)算資源中最優(yōu)或次優(yōu)的可選節(jié)點(diǎn)集,能實(shí)現(xiàn)節(jié)點(diǎn)及網(wǎng)絡(luò)的負(fù)載平衡,預(yù)防Map/Reduce任務(wù)之間大數(shù)據(jù)量傳輸所造成的網(wǎng)絡(luò)擁擠及堵塞,避開(kāi)網(wǎng)絡(luò)帶寬的瓶頸。
3.4 從大數(shù)據(jù)處理中容錯(cuò)處理的角度分析
由于大數(shù)據(jù)應(yīng)用環(huán)境下,數(shù)據(jù)的規(guī)模、計(jì)算資源(存儲(chǔ)、服務(wù)器)的規(guī)模和同時(shí)并行處理的任務(wù)規(guī)模都極其龐大,各種情況的失效[16,17](服務(wù)器故障、軟件故障、存儲(chǔ)器故障、運(yùn)行環(huán)境故障等)已成為一種常態(tài)行為。
MapReduce是一種并行編程模型,作為典型的大數(shù)據(jù)處理框架,被經(jīng)常用以處理和生成大數(shù)據(jù)集。任務(wù)調(diào)度以及容錯(cuò)機(jī)制作為模型的重要組成部分,會(huì)對(duì)整個(gè)大數(shù)據(jù)處理框架的性能產(chǎn)生直接影響[18,19]。提高整個(gè)大數(shù)據(jù)應(yīng)用環(huán)境的容錯(cuò)性[20](分布存儲(chǔ)的容錯(cuò)性、物理拓?fù)浣Y(jié)構(gòu)的容錯(cuò)性、數(shù)據(jù)的容錯(cuò)性等)是云計(jì)算面臨的一項(xiàng)挑戰(zhàn)。大數(shù)據(jù)應(yīng)用環(huán)境下,為提高容錯(cuò)性對(duì)網(wǎng)絡(luò)的需求主要有以下幾個(gè)方面:
(1)節(jié)點(diǎn)失效、存儲(chǔ)介質(zhì)故障導(dǎo)致文件數(shù)據(jù)丟失。選擇另外一個(gè)或多個(gè)有足夠存儲(chǔ)空間的節(jié)點(diǎn)來(lái)存儲(chǔ)受影響的文件后,常態(tài)化需要在跨機(jī)架或同一機(jī)架跨節(jié)點(diǎn)之間進(jìn)行數(shù)據(jù)的復(fù)制/遷移 ,因此需要得到網(wǎng)絡(luò)在時(shí)間和帶寬上的支持;
(2)元數(shù)據(jù)服務(wù)器失效/JobTracker失效。為防止元數(shù)據(jù)服務(wù)器失效,應(yīng)對(duì)元數(shù)據(jù)備份眾多方案,在實(shí)施方面,網(wǎng)絡(luò)需在備份操作期間保持穩(wěn)定且維持一定的帶寬,以便傳輸日志、元數(shù)據(jù)信息等,保證數(shù)據(jù)的一致性;
關(guān)鍵詞:大數(shù)據(jù);云資源;云計(jì)算;應(yīng)用
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)05-0017-02
現(xiàn)階段,大數(shù)據(jù)這一概念廣泛被人們熟知,是繼數(shù)據(jù)云計(jì)算、數(shù)據(jù)挖掘后涌現(xiàn)出的另一項(xiàng)信息革命。在大數(shù)據(jù)的研究上,眾多商業(yè)機(jī)構(gòu),如IBM、Microsoft等都已介入,在借助云計(jì)算這一數(shù)據(jù)信息平臺(tái)的基礎(chǔ)上,研發(fā)了大數(shù)據(jù)信息資源處理產(chǎn)品。作為高校來(lái)講,充分運(yùn)用大數(shù)據(jù)時(shí)代的相關(guān)技術(shù)及產(chǎn)品,著重培育及使用高校云資源,具有極強(qiáng)的現(xiàn)實(shí)研究?jī)r(jià)值。
1大數(shù)據(jù)及其基本概述
大數(shù)據(jù)這一概念首先由麥肯錫公司在于2011年在分析報(bào)告中提出,在這一報(bào)告中,該公司表示:在社會(huì)生產(chǎn)生活各領(lǐng)域中,已被數(shù)據(jù)廣泛覆蓋,數(shù)據(jù)開(kāi)始作為一種生產(chǎn)要素存在,通過(guò)對(duì)數(shù)據(jù)的調(diào)用,可以培育出新的消費(fèi)增長(zhǎng)點(diǎn)。但在業(yè)界關(guān)于大數(shù)據(jù)的具體內(nèi)涵界定上,尚未形成統(tǒng)一的表述,不一而足的內(nèi)涵表述方式都是基于一點(diǎn):大數(shù)據(jù)具備較為龐雜的數(shù)據(jù)量,在數(shù)據(jù)信息的種類及形式上具備繁復(fù)多樣性,大數(shù)據(jù)并不等同于海量數(shù)據(jù)[1]。
結(jié)合相關(guān)數(shù)據(jù)統(tǒng)計(jì),2010年,全世界范圍內(nèi)的信息數(shù)據(jù)總量達(dá)到了1.2ZB,通過(guò)對(duì)這些數(shù)據(jù)加以分析時(shí)可以獲取以下信息:結(jié)構(gòu)化數(shù)據(jù)在數(shù)據(jù)總量中占比僅為10%左右,剩余的數(shù)據(jù)主要以半結(jié)構(gòu)或非結(jié)構(gòu)化數(shù)據(jù)形式為主,如視頻、郵件、微博等。除了數(shù)量龐雜,種類形式多樣外,大數(shù)據(jù)還具備了快速預(yù)測(cè)的特點(diǎn),具有較高的應(yīng)用價(jià)值。例如,美國(guó)的海洋及大氣管理部門(mén),在日本發(fā)生地震災(zāi)害后,借助大數(shù)據(jù)信息,能夠在極短的時(shí)間內(nèi)制定并海嘯災(zāi)害的預(yù)警防備措施,從而能夠?yàn)橛行ьA(yù)防后續(xù)災(zāi)害提供強(qiáng)力支撐。
2大數(shù)據(jù)時(shí)代背景下,高校云資源的整合與利用
在大數(shù)據(jù)時(shí)代,隨著信息技術(shù)及云計(jì)算的研究發(fā)展,高校信息建設(shè)能夠突破原有的信息局限性,消除原有的高校信息資源孤立化的弊端,可以通過(guò)云計(jì)算技術(shù)的運(yùn)用將高校的各種教學(xué)資源加以整合利用,形成一個(gè)高校云資源儲(chǔ)存及管理的平臺(tái),從而通過(guò)在此平臺(tái)中調(diào)用各類資源,為高校各項(xiàng)教學(xué)活動(dòng)及管理決策的制定提供技術(shù)及服務(wù)參考。此外,更為重要的一點(diǎn)是,大數(shù)據(jù)時(shí)代背景下,伴隨云計(jì)算而出現(xiàn)了眾多的信息終端裝置,通過(guò)采用云計(jì)算技術(shù),可以將這些信息終端裝置與高校的教學(xué)活動(dòng)有效連接,一方面強(qiáng)化了教師與學(xué)生的交流溝通,另一方面有助于學(xué)生高效地開(kāi)展學(xué)習(xí)活動(dòng)。
總體上看,大數(shù)據(jù)時(shí)代的到來(lái),給云計(jì)算功效的真正發(fā)揮提供了技術(shù)支持,使得云計(jì)算可以和大數(shù)據(jù)、高校三者之間有效銜接,使高校教育資源能夠被充分調(diào)動(dòng)起來(lái),為高校云資源的整合利用帶來(lái)了一些新的變革:
2.1為高校圖書(shū)館管理及發(fā)展提供契機(jī)
大數(shù)據(jù)時(shí)代下云計(jì)算的優(yōu)勢(shì)在高校圖書(shū)館中體現(xiàn)最為明顯,其給高校圖書(shū)館管理及發(fā)展帶來(lái)的影響主要是改變了其服務(wù)的基本形態(tài),借助云計(jì)算,可以使圖書(shū)館進(jìn)行網(wǎng)絡(luò)及數(shù)字化應(yīng)用階段,從而建立起了以云資源為主要模式的高校數(shù)字圖書(shū)館。例如,借助云計(jì)算技術(shù),我國(guó)山東省高校圖書(shū)館構(gòu)成了基于云技術(shù)的圖書(shū)館聯(lián)盟,實(shí)現(xiàn)了資源、管理及服務(wù)上的共享化,一體化。
此外,大數(shù)據(jù)憑借其數(shù)據(jù)分析及挖掘功能,可以對(duì)云儲(chǔ)存端的各種信息數(shù)據(jù)加以分析歸納,從而對(duì)學(xué)生的圖書(shū)借閱需求,學(xué)生群體的知識(shí)層次結(jié)構(gòu)等加以揣摩,從而為圖書(shū)館管理者更好地進(jìn)行決策提供借鑒;針對(duì)借閱者的科研及讀者與圖書(shū)館之間的交互服務(wù),可以借助大數(shù)據(jù)開(kāi)展預(yù)測(cè)分析,做到圖書(shū)館后期發(fā)展階段未雨綢繆;針對(duì)圖書(shū)館信息數(shù)據(jù)的館藏,還可以通過(guò)大數(shù)據(jù)建立相關(guān)的風(fēng)險(xiǎn)評(píng)估模型。
2.2 為高校學(xué)習(xí)效率的提升提供指導(dǎo)
大數(shù)據(jù)和及云計(jì)算之間的融合,能夠使教育資源實(shí)現(xiàn)應(yīng)用上的有機(jī)整合,做到將存儲(chǔ)在云端的高校教學(xué)資源加以共享,再借助大數(shù)據(jù)的數(shù)據(jù)分析及挖掘功能,對(duì)教育信息資源中蘊(yùn)藏的各種數(shù)據(jù)信息進(jìn)行分析提煉,從而為高校教與學(xué)策略規(guī)劃提供幫助[2]。此外,通過(guò)運(yùn)用大數(shù)據(jù)還可以著重對(duì)學(xué)生在學(xué)習(xí)中的各項(xiàng)行為及愛(ài)好等數(shù)據(jù)信息加以分析,摸準(zhǔn)學(xué)生的學(xué)習(xí)特點(diǎn),以此為教師科學(xué)制定教學(xué)決策予以指導(dǎo)。最后,大數(shù)據(jù)還可以被用于對(duì)學(xué)生的學(xué)習(xí)效果及學(xué)習(xí)傾向進(jìn)行分析評(píng)價(jià),通過(guò)對(duì)學(xué)生業(yè)務(wù)時(shí)間參與各項(xiàng)活動(dòng)的信息加以解析,可以對(duì)學(xué)生的學(xué)習(xí)效果及傾向加以評(píng)估,便于教師掌握學(xué)生學(xué)習(xí)及生活動(dòng)態(tài),提升教與學(xué)的效率。
2.3為高校管理決策提供參考
傳統(tǒng)的數(shù)據(jù)分析是基于群體調(diào)查而展開(kāi),不具備較高的數(shù)據(jù)精準(zhǔn)性。進(jìn)入大數(shù)據(jù)時(shí)代后,借助大數(shù)據(jù)具備的數(shù)據(jù)分析整理功能,可以為決策的制定提供更加全面到位的數(shù)據(jù)信息參考,從而使管理及決策者對(duì)市場(chǎng)、產(chǎn)品及消費(fèi)群體的把握更加準(zhǔn)確。作為高校來(lái)講,通過(guò)運(yùn)用大數(shù)據(jù)及云端信息分析處理技術(shù),也可以對(duì)高校的發(fā)展?fàn)顩r及后期趨勢(shì)加以模擬,將高校管理決策與相應(yīng)的數(shù)據(jù)信息相印證,從而起到規(guī)避決策風(fēng)險(xiǎn)的效果。另外,通過(guò)大數(shù)據(jù)技術(shù),還能夠使高校教育達(dá)到質(zhì)量與公平上的統(tǒng)一,而大數(shù)據(jù)技術(shù)貫穿于高校各個(gè)部門(mén)中,又可以進(jìn)一步對(duì)高校教學(xué)及管理成效加以驗(yàn)證,有助于高校改革的退行實(shí)施。
3大數(shù)據(jù)時(shí)代高校云資源應(yīng)用中的數(shù)據(jù)處理及服務(wù)的原理和流程
大數(shù)據(jù)時(shí)代背景下,對(duì)云資源加以利用時(shí),人們的關(guān)注點(diǎn)不僅僅局限于數(shù)據(jù)的分析及使用,而更加注重通過(guò)數(shù)據(jù)分析對(duì)之后的發(fā)展趨向加以預(yù)測(cè)。這就需要我們對(duì)云資源在信息數(shù)據(jù)處理及服務(wù)方面的流程進(jìn)行探究。
3.1 高校云資源的信息數(shù)據(jù)處理
伴隨著云計(jì)算的出現(xiàn),在教學(xué)資源的信息數(shù)據(jù)處理上有了革命性的提升,圍繞著云計(jì)算,各大高校著力打造以云為核心的教育模式。但在對(duì)高校云資源加以分析時(shí),通常選用關(guān)系數(shù)據(jù)庫(kù)的形式,一方面其信息分析及管理成本較高,另一方面也無(wú)法對(duì)后期教育資源應(yīng)用趨勢(shì)加以前瞻分析。因此,基于大數(shù)據(jù),Hadoop技術(shù)得以形成,該技術(shù)涵蓋了資源內(nèi)存檢索、數(shù)據(jù)實(shí)時(shí)反應(yīng),主要借助Map Reduce對(duì)數(shù)據(jù)加以管理,從而做到了對(duì)信息資源的高效分析。在具體處理流程上,該平臺(tái)通過(guò)對(duì)云端上的各種信息碎片數(shù)據(jù),如學(xué)生及教室的云端信息等加以整理匯總,然后再對(duì)這些數(shù)據(jù)碎片加以提煉,形成具有連續(xù)性的信息數(shù)據(jù),最后該平臺(tái)接收并對(duì)這些信息數(shù)據(jù)加以分析,在數(shù)據(jù)挖掘技術(shù)的配合下,最終構(gòu)成具備較強(qiáng)價(jià)值的信息,為教師、學(xué)生及管理者提供指導(dǎo)。
3.2 高校云資源的教育資源服務(wù)
在大數(shù)據(jù)及云計(jì)算的輔助下,高校資源的用戶在資源需求上也出現(xiàn)了一定程度的變化,由此也使高校資源在服務(wù)上,管理模式上及途徑上也有所改變。結(jié)合大數(shù)據(jù)及云計(jì)算的特征規(guī)律,可以預(yù)見(jiàn)到,高校教育及服務(wù)主要依靠采用大數(shù)據(jù)對(duì)信息數(shù)據(jù)加以分析、提煉,在此基礎(chǔ)上提供具體的資源服務(wù),因此,高校云資源教育服務(wù)的針對(duì)性將更加凸顯[3]。首先,高校云資源是以提供準(zhǔn)確及時(shí)的信息服務(wù)為宗旨,資源用戶不必探究其形成過(guò)程,只要對(duì)其結(jié)果加以運(yùn)用即。其次,大數(shù)據(jù)技術(shù)體系下,通過(guò)對(duì)信息數(shù)據(jù)碎片加以分析,然后反饋到云端資源中,用戶可以針對(duì)某一項(xiàng)信息要素,如教學(xué)方法及手段進(jìn)行重點(diǎn)分析,可以對(duì)其效果加以評(píng)估,從而使教師及時(shí)修正自身教學(xué)方式,以提高教學(xué)效率。第三,大數(shù)據(jù)時(shí)代與信息化的有效結(jié)合,能夠使高校云資源服務(wù)形式更加多樣,如教師及學(xué)生可以對(duì)資源使用情況進(jìn)行評(píng)價(jià),通過(guò)大數(shù)據(jù)進(jìn)行采集及分析,可以對(duì)教育資源的使用及改進(jìn)建議加以匯總,從而提高云資源服務(wù)的主動(dòng)性。
4大數(shù)據(jù)時(shí)代高校云資源應(yīng)用的趨勢(shì)分析
4.1 高校云資源的應(yīng)用以滿足學(xué)生終身學(xué)習(xí)需求為方向
在大數(shù)據(jù)時(shí)代下,作為高校信息資源來(lái)說(shuō),已經(jīng)不是傳統(tǒng)的較為明確的關(guān)系數(shù)據(jù),而是各種基于學(xué)生訪問(wèn)及調(diào)用的各種非結(jié)構(gòu)形式的數(shù)據(jù),如信息資源的瀏覽訪問(wèn)及下載訪問(wèn)等[4]。在這一趨勢(shì)下,高校云資源的信息數(shù)據(jù)處理就需要將重點(diǎn)轉(zhuǎn)向?qū)Υ祟愋畔?shù)據(jù)的分析工作,然后將結(jié)果以數(shù)據(jù)的形式加以呈現(xiàn),從而便于學(xué)生能夠?qū)ψ陨淼膶W(xué)習(xí)情況及信息獲取頻率加以掌握,使學(xué)生從盲目地學(xué)習(xí)狀態(tài)中走出,滿足自身終身學(xué)習(xí)的需求。
4.2 高校云資源的應(yīng)用以打造交流溝通類型的課堂教學(xué)形式為方向
傳統(tǒng)高校教學(xué)課堂,師生之間的交流不夠頻繁,教學(xué)效果收效不明顯,在大數(shù)據(jù)時(shí)代背景下,借助大數(shù)據(jù)分析技術(shù),教師能夠?qū)W(xué)生的學(xué)習(xí)情況加以全面掌握,從而根據(jù)學(xué)生的學(xué)習(xí)興趣點(diǎn)及側(cè)重點(diǎn),通過(guò)多種多樣的教學(xué)手段,從高校云資源中挑選教學(xué)資源,通過(guò)教學(xué)課件及視頻的方式予以呈現(xiàn),一方面可以使學(xué)生的學(xué)習(xí)更具針對(duì)性,另一方面圍繞學(xué)習(xí)中的難點(diǎn)及重點(diǎn),教師也能夠更多地與學(xué)生展開(kāi)交流溝通,從而實(shí)現(xiàn)教學(xué)相長(zhǎng)的目標(biāo)。
5 高校云資源的應(yīng)用以促進(jìn)教室及教學(xué)設(shè)備管理更加快捷高效為方向
在高校教室及相應(yīng)的教學(xué)設(shè)備管理上,在大數(shù)據(jù)時(shí)代以前,往往安排專人進(jìn)行負(fù)責(zé),一方面增加了高校的人力投入成本,另一方面其管理效率未必高效。與之相對(duì)應(yīng),在大數(shù)據(jù)時(shí)代背景下,可以通過(guò)對(duì)高校云資源的存儲(chǔ)信息加以提煉,獲取高校教室及相應(yīng)的教學(xué)設(shè)備使用數(shù)據(jù),通過(guò)對(duì)其加以分析整理,可以形成某一時(shí)段教室及設(shè)備的應(yīng)用信息及應(yīng)用的趨勢(shì),從而為管理人員科學(xué)判斷該教室及設(shè)備能否滿足教學(xué)活動(dòng)需求,是否存在故障發(fā)生臨界點(diǎn)提供數(shù)據(jù)支持,以便管理人員及時(shí)對(duì)教室及設(shè)備加以維保,既節(jié)約了管理成本,又能夠提高教室及設(shè)備資源的利用效率。
6 結(jié)束語(yǔ)
大數(shù)據(jù)伴隨著信息技術(shù)及云計(jì)算技術(shù)的不斷發(fā)展而出現(xiàn),現(xiàn)已被各行業(yè)管理人員普遍重視,并著重開(kāi)展了相關(guān)的實(shí)踐及應(yīng)用。作為高校來(lái)講,其信息資源逐漸向著復(fù)雜化、規(guī)?;较虬l(fā)展,通過(guò)借助大數(shù)據(jù)及云計(jì)算技術(shù),可以建立高校云資源數(shù)據(jù)庫(kù),為教學(xué)、學(xué)習(xí)及決策提供詳盡科學(xué)的指導(dǎo)。
參考文獻(xiàn):
[1] 鄒流鄉(xiāng),王朝斌.高校云計(jì)算資源共享平臺(tái)建設(shè)研究[J].西華師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(1):91-94.
[2] 郭松.大數(shù)據(jù)時(shí)代高校學(xué)習(xí)資源云存儲(chǔ)模型構(gòu)建研究[J].軟件導(dǎo)刊?教育技術(shù),2014(11):48-49.
關(guān)鍵詞:大數(shù)據(jù);云計(jì)算;財(cái)務(wù)管理;應(yīng)用
財(cái)務(wù)管理工作是學(xué)校的重要工作之一,而大數(shù)據(jù)和云計(jì)算的引入,能夠解決很多傳統(tǒng)財(cái)務(wù)管理模式中存在的問(wèn)題,拓展了財(cái)務(wù)管理工作原有的工作范圍,節(jié)約了人力物力,使遠(yuǎn)程和高負(fù)荷數(shù)據(jù)處理成為一種可能。因此,在大數(shù)據(jù)和云計(jì)算視域下,加強(qiáng)財(cái)務(wù)管理,促進(jìn)學(xué)校的和諧健康發(fā)展是值得探究的課題。
一、相關(guān)概念
1.大數(shù)據(jù)
大數(shù)據(jù)能夠從種類繁多、來(lái)源廣泛的海量不同數(shù)據(jù)中提取出最有價(jià)值的數(shù)據(jù)。它具有數(shù)據(jù)的容量龐大、數(shù)據(jù)的種類復(fù)雜多樣、數(shù)據(jù)的來(lái)源可靠性和價(jià)值度較低、處理時(shí)效緊等特點(diǎn)。財(cái)務(wù)大數(shù)據(jù)是指通過(guò)一定的技術(shù)手段把大數(shù)據(jù)技術(shù)有效運(yùn)用在財(cái)務(wù)管理工作上。大數(shù)據(jù)的運(yùn)用,能夠使財(cái)務(wù)工作人員在極短的時(shí)間內(nèi),從結(jié)構(gòu)復(fù)雜、種類繁多的財(cái)務(wù)數(shù)據(jù)當(dāng)中提取最有用的財(cái)務(wù)信息。
2.云計(jì)算
云計(jì)算是一種以互聯(lián)網(wǎng)為基礎(chǔ)的共享資源使用模式,當(dāng)用戶需要使用計(jì)算資源時(shí),只需要向互聯(lián)網(wǎng)提交計(jì)算資源服務(wù)的申請(qǐng),互聯(lián)網(wǎng)接收到用戶的申請(qǐng)后,就能夠把用戶申請(qǐng)的計(jì)算資源服務(wù)立刻劃分成很多不同的小程序,然后再通過(guò)互聯(lián)網(wǎng)上大量的電腦、服務(wù)器資源把各個(gè)程序迅速處理,并立即傳回給用戶。通過(guò)這樣的方法,用戶可以通過(guò)申請(qǐng),在短時(shí)間內(nèi)調(diào)用互聯(lián)網(wǎng)上龐大的服務(wù)器、計(jì)算機(jī)資源,來(lái)為自己完成數(shù)據(jù)服務(wù),相當(dāng)于用戶擁有了世界上運(yùn)算最快捷的、最先進(jìn)的超級(jí)計(jì)算機(jī)。云計(jì)算具有計(jì)算容量大、服務(wù)方便、穩(wěn)定性高、成本低等優(yōu)點(diǎn),但存在一定的風(fēng)險(xiǎn)。大數(shù)據(jù)與云計(jì)算是相互關(guān)聯(lián),互相依存、共同作用的。運(yùn)用大數(shù)據(jù)離不開(kāi)云計(jì)算,云計(jì)算是大數(shù)據(jù)技術(shù)最有效的方法,云計(jì)算為大數(shù)據(jù)提供了基礎(chǔ)架構(gòu)平臺(tái),大數(shù)據(jù)是云計(jì)算的基礎(chǔ)。
二、基于大數(shù)據(jù)的財(cái)務(wù)決策流程
財(cái)務(wù)數(shù)據(jù)管理是財(cái)務(wù)管理工作的重點(diǎn),它詳細(xì)記錄著一個(gè)單位的各種經(jīng)濟(jì)活動(dòng)和資金運(yùn)轉(zhuǎn)情況,數(shù)據(jù)信息是財(cái)務(wù)決策的基礎(chǔ)和保障。運(yùn)用大數(shù)據(jù)和云計(jì)算,能夠及時(shí)發(fā)現(xiàn)整個(gè)運(yùn)行過(guò)程中存在的各種問(wèn)題和風(fēng)險(xiǎn),有效提高對(duì)數(shù)據(jù)的處理能力?;诖髷?shù)據(jù)的財(cái)務(wù)決策流程主要有:建立財(cái)務(wù)大數(shù)據(jù)收集系統(tǒng),把收集到的各種財(cái)務(wù)數(shù)據(jù),通過(guò)大數(shù)據(jù)收集系統(tǒng)完成不同類型財(cái)務(wù)數(shù)據(jù)的收集、加工處理和有效提取,確保財(cái)務(wù)大數(shù)據(jù)的一致性、準(zhǔn)確性、實(shí)時(shí)性和系統(tǒng)性;對(duì)財(cái)務(wù)大數(shù)據(jù)進(jìn)行定量分析,通過(guò)財(cái)務(wù)云計(jì)算平臺(tái)對(duì)財(cái)務(wù)大數(shù)據(jù)進(jìn)行實(shí)時(shí)分析處理;通過(guò)數(shù)據(jù)挖掘功能給出財(cái)務(wù)數(shù)據(jù)背后存在的相關(guān)問(wèn)題,根據(jù)之前所有的數(shù)據(jù)的相關(guān)性分析,做出切實(shí)可行的決策方案。
三、大數(shù)據(jù)和云計(jì)算技術(shù)背景下財(cái)務(wù)管理的創(chuàng)新策略
1.正確認(rèn)識(shí),合理運(yùn)用
自上而下高度重視,正確認(rèn)識(shí)大數(shù)據(jù)和云計(jì)算所帶來(lái)的價(jià)值,明確大數(shù)據(jù)和云計(jì)算的意義和作用,把大數(shù)據(jù)和云計(jì)算在財(cái)務(wù)管理中的創(chuàng)新運(yùn)用當(dāng)作重要工作來(lái)抓,充分發(fā)揮財(cái)務(wù)管理部門(mén)和財(cái)務(wù)人員的積極作用,把大數(shù)據(jù)和云計(jì)算的新理念和高效的財(cái)務(wù)處理技術(shù)相融合,不斷提高財(cái)務(wù)管理人員通過(guò)大數(shù)據(jù)和云計(jì)算對(duì)財(cái)務(wù)數(shù)據(jù)的分析和處理能力,以便更好應(yīng)對(duì)各種財(cái)務(wù)風(fēng)險(xiǎn)的挑戰(zhàn)。結(jié)合本單位的具體情況,創(chuàng)建財(cái)務(wù)管理信息中心,加強(qiáng)對(duì)財(cái)務(wù)數(shù)據(jù)的處理、分析和應(yīng)用,促進(jìn)學(xué)校的生存和發(fā)展。
2.加強(qiáng)隊(duì)伍建設(shè)
大數(shù)據(jù)和云計(jì)算的引入,不僅需要新的管理模式,更需要財(cái)務(wù)工作人員能夠通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析,根據(jù)數(shù)據(jù)分析的結(jié)果,透過(guò)現(xiàn)象抓住本質(zhì)的東西,引領(lǐng)決策者做出正確選擇。大數(shù)據(jù)和云計(jì)算需要專業(yè)性很強(qiáng)的技術(shù)人才,因此,應(yīng)加強(qiáng)對(duì)財(cái)務(wù)管理人員的培訓(xùn),多為他們提供外出學(xué)習(xí)和參觀的機(jī)會(huì),學(xué)習(xí)好的創(chuàng)新做法和管理經(jīng)驗(yàn),更多地了解其他單位的大數(shù)據(jù)和云計(jì)算的運(yùn)用情況,不斷提升自身的專業(yè)水平,在可能的情況下,加大資金投入,聘請(qǐng)對(duì)大數(shù)據(jù)和云計(jì)算了解透徹、運(yùn)用能力強(qiáng)的專業(yè)人員來(lái)本單位工作,同時(shí)指導(dǎo)并定期組織財(cái)務(wù)管理人員和有這方面訴求的員工學(xué)習(xí)相關(guān)知識(shí),促進(jìn)整個(gè)隊(duì)伍建設(shè)。
3.建立統(tǒng)一的信息化管理系統(tǒng)
大數(shù)據(jù)和云計(jì)算的引入,原有的信息系統(tǒng)已滿足不了新技術(shù)的需求。這就需要建立統(tǒng)一的信息化管理系統(tǒng)。統(tǒng)一數(shù)據(jù)格式,加大信息存儲(chǔ)量,以便對(duì)多年累積的內(nèi)部、外部各種業(yè)務(wù)、財(cái)務(wù)等各種信息進(jìn)行剖析,提取有價(jià)值的數(shù)據(jù),促進(jìn)本單位財(cái)務(wù)管理工作。建設(shè)適用于不同行業(yè)的可擴(kuò)展性報(bào)告語(yǔ)言,通過(guò)規(guī)范、適用的會(huì)計(jì)信息平臺(tái),不斷提高會(huì)計(jì)數(shù)據(jù)的收集、整理、儲(chǔ)存和分析,從而提高對(duì)數(shù)據(jù)的利用率。根據(jù)單位的具體情況,不斷創(chuàng)新,開(kāi)發(fā)研制新軟件,和大數(shù)據(jù)、云計(jì)算進(jìn)行有機(jī)結(jié)合,加強(qiáng)財(cái)務(wù)管理工作,促進(jìn)學(xué)校的生存和發(fā)展。與傳統(tǒng)的財(cái)務(wù)管理模式相比,大數(shù)據(jù)和云計(jì)算模式下的財(cái)務(wù)信息化管理系統(tǒng),不僅提高了系統(tǒng)的安全可靠性,“云財(cái)務(wù)”系統(tǒng)還具有自動(dòng)化管理能力和可擴(kuò)展性能,進(jìn)而實(shí)現(xiàn)整個(gè)財(cái)務(wù)系統(tǒng)的自動(dòng)重復(fù)實(shí)施和自動(dòng)化管理操作。首先搭建云計(jì)算架構(gòu),把整合后的用戶系統(tǒng)逐步遷移到云計(jì)算構(gòu)架中,運(yùn)用云計(jì)算構(gòu)架模式來(lái)取代原有財(cái)務(wù)應(yīng)用系統(tǒng)。在云架構(gòu)模式下,財(cái)務(wù)軟件能夠稽查到用戶的財(cái)務(wù)制度是否合理、操作流程是否規(guī)范等,如果用戶的操作存在不安全隱患,可以根據(jù)財(cái)務(wù)制度的要求進(jìn)行及時(shí)修正。還可以依據(jù)本單位內(nèi)部的財(cái)務(wù)管理制度和管理模式,制定出不同的財(cái)務(wù)人員的合法行為,通過(guò)云系統(tǒng)實(shí)現(xiàn)對(duì)財(cái)務(wù)人員的合法行為的安全審計(jì)。一旦發(fā)現(xiàn)違規(guī)行為或者違章操作,需在云端設(shè)置的第一時(shí)間進(jìn)行預(yù)處理的策略。在云系統(tǒng)財(cái)務(wù)軟件建立之后,根據(jù)不同的管理和操作人員的各自角色的不同,進(jìn)行財(cái)務(wù)軟件管理的模板化。
4.加強(qiáng)風(fēng)險(xiǎn)管理
無(wú)論管理者還是財(cái)務(wù)工作人員,都應(yīng)不斷學(xué)習(xí)和探究,了解更多有關(guān)大數(shù)據(jù)和云計(jì)算的相關(guān)知識(shí)。對(duì)我國(guó)云計(jì)算的規(guī)模、價(jià)格、服務(wù)種類以及安全水平進(jìn)行綜合考察,了解它的安全性能、穩(wěn)定情況和技術(shù)支持能力等,結(jié)合單位的實(shí)際情況制定合理的風(fēng)險(xiǎn)管理方案,特別是各種風(fēng)險(xiǎn)的應(yīng)急措施,提高云計(jì)算整體的安全性,要求服務(wù)商要加強(qiáng)云存儲(chǔ)的安全以及數(shù)據(jù)庫(kù)的管理和數(shù)據(jù)傳輸?shù)陌踩?,云?jì)算要設(shè)有防止數(shù)據(jù)外泄的安全防護(hù)系統(tǒng)。隨著大數(shù)據(jù)和云計(jì)算逐步走進(jìn)各行各業(yè),財(cái)務(wù)管理工作也將迎來(lái)全新改變。根據(jù)本單位的具體情況,通過(guò)改變觀念、加強(qiáng)隊(duì)伍建設(shè)、建立統(tǒng)一的信息化系統(tǒng)、構(gòu)建云財(cái)務(wù)模式等有效方式,加強(qiáng)財(cái)務(wù)管理,不僅使財(cái)務(wù)管理工作更高效、更便捷,而且充分調(diào)動(dòng)了財(cái)務(wù)管理人員的工作積極性,減少了單位的資金投入,節(jié)約了人力資源,提高了工作效率,為更好的適應(yīng)時(shí)代的發(fā)展,提高競(jìng)爭(zhēng)力打下了必備的基礎(chǔ)。
參考文獻(xiàn)
1.朱曉燕.大數(shù)據(jù)和云計(jì)算技術(shù)在財(cái)政工作中的應(yīng)用研究.中國(guó)財(cái)政,2016(22).
2.熊發(fā)政,李育強(qiáng),陳英齊.淺析大數(shù)據(jù)技術(shù)在高校學(xué)生教育管理工作中的應(yīng)用路徑.才智,2016(23).
3.張方,陳發(fā)富.大數(shù)據(jù)技術(shù)在高校管理中的應(yīng)用初探.信息通信,2015(07).
4.賈子揚(yáng).基于大數(shù)據(jù)的財(cái)務(wù)報(bào)表持續(xù)審計(jì)研究.山西財(cái)經(jīng)大學(xué),2016.
當(dāng)前云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等技術(shù)飛速發(fā)展,數(shù)據(jù)的種類和規(guī)模以前所未有的速度增長(zhǎng),如何管理和利用大數(shù)據(jù)成為當(dāng)前研究的熱點(diǎn)。云計(jì)算和大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)處理及服務(wù)方式產(chǎn)生巨大影響。文章闡述了云計(jì)算和大數(shù)據(jù)的內(nèi)涵特征基礎(chǔ),結(jié)合醫(yī)療領(lǐng)域,論述了大數(shù)據(jù)的研究意義及云計(jì)算下大數(shù)據(jù)處理方式。闡述了云計(jì)算下大數(shù)據(jù)技術(shù)不僅改變了傳統(tǒng)的數(shù)據(jù)管理模式,必將帶來(lái)極大的經(jīng)濟(jì)與社會(huì)價(jià)值。
【關(guān)鍵字】
云計(jì)算;大數(shù)據(jù);醫(yī)療行業(yè)數(shù)據(jù);應(yīng)用研究
一、前言
隨著社會(huì)的發(fā)展,人們?nèi)粘I钆c工作產(chǎn)生的數(shù)據(jù)量越來(lái)越大,人類已經(jīng)步入了大數(shù)據(jù)時(shí)代。數(shù)據(jù)變化具有以下趨勢(shì):第一是海量數(shù)據(jù)的需求。數(shù)據(jù)基本是以每年成倍的速度進(jìn)行增長(zhǎng),數(shù)據(jù)量的需求分析也更細(xì),對(duì)它的門(mén)檻要求也更低,傳統(tǒng)的數(shù)據(jù)庫(kù)無(wú)法滿足這種需求。第二是快的需求。數(shù)據(jù)得到的同時(shí),希望有智能的產(chǎn)生,希望能夠直接產(chǎn)生效果。第三現(xiàn)在的開(kāi)發(fā)者,需求是多樣化的,很多時(shí)候關(guān)系型數(shù)據(jù)庫(kù)并不是最優(yōu)的解決方案。數(shù)據(jù)的不斷增長(zhǎng),給數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理和分析利用帶來(lái)了機(jī)遇;在這些包括個(gè)人信息、消費(fèi)記錄等的海量數(shù)據(jù)之中,蘊(yùn)含著許多有價(jià)值的信息,能夠?yàn)槠髽I(yè)經(jīng)營(yíng)及管理提供參考。云計(jì)算作為這個(gè)大數(shù)據(jù)時(shí)代的主流技術(shù),對(duì)于大數(shù)據(jù)的應(yīng)用管理又有著重要影響。云計(jì)算是大數(shù)據(jù)的IT基礎(chǔ),而大數(shù)據(jù)是云計(jì)算的一個(gè)重要應(yīng)用。
二、大數(shù)據(jù)的概念與意義
1、大數(shù)據(jù)的概念
大數(shù)據(jù),即巨大數(shù)據(jù)量,不能夠通過(guò)主流的軟件工具,在適當(dāng)?shù)臅r(shí)間內(nèi)收集管理處理及組織起來(lái),使之作為企業(yè)決策的有用信息。大數(shù)據(jù),需要特別的技術(shù),由大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘網(wǎng)格、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)組成。“大數(shù)據(jù)”,需要更多的決策權(quán)及洞察發(fā)現(xiàn)力及過(guò)程地大規(guī)模優(yōu)化能力,應(yīng)對(duì)新模式高增長(zhǎng)率及信息資產(chǎn)多樣化。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義并不是一個(gè)巨大的數(shù)據(jù)信息的掌握,而是因?yàn)檫@些包含了專門(mén)的數(shù)據(jù)進(jìn)行處理。大數(shù)據(jù)的特點(diǎn)可以概括為4個(gè)“V”(大量Volume,多樣Va-riety,價(jià)值Value,高速Velocity)。首先,龐大的數(shù)據(jù)量。大數(shù)據(jù)的初始測(cè)量單元至少為P(1000個(gè)T),E(100萬(wàn)個(gè)T)或Z(10億個(gè)T);二、數(shù)據(jù)類型豐富。例如,網(wǎng)絡(luò)日志,視頻,圖片,位置信息等。第三,低密度,高商業(yè)價(jià)值。第四、快速處理速度。這最后一點(diǎn)是傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)本質(zhì)上是不同的。大數(shù)據(jù)技術(shù),是一種先進(jìn)的數(shù)據(jù)分析技術(shù),能夠從各類數(shù)據(jù)快速獲取有價(jià)值地信息,它需要新地加工方式,實(shí)現(xiàn)更大決策力地海量高增長(zhǎng)率及多樣化的信息。
2、大數(shù)據(jù)的意義
面對(duì)大數(shù)據(jù)直接從所有的數(shù)據(jù)分析,挖掘所需信息。分析數(shù)據(jù)挖掘是混合的有不同來(lái)源數(shù)據(jù)結(jié)構(gòu),要求其對(duì)樣品的精度高并且關(guān)注數(shù)據(jù)相關(guān)性地研究。大數(shù)據(jù)為云計(jì)算及計(jì)算能力提供了解決空間,對(duì)于大數(shù)據(jù)存儲(chǔ)挖掘及云計(jì)算業(yè)務(wù),大數(shù)據(jù)需要高效節(jié)能的海量云服務(wù)器,并從海量數(shù)據(jù)提取有價(jià)值地信息,能夠?qū)φ鹑诹闶蹔蕵?lè)及媒體領(lǐng)域帶來(lái)革命性的變化。云計(jì)算是基礎(chǔ)信息存儲(chǔ),為數(shù)據(jù)共享和挖掘方法提供有用的工具,通過(guò)數(shù)據(jù)的分析和預(yù)測(cè)使決策更加準(zhǔn)確。中國(guó)擁有龐大地高度復(fù)雜性充滿變化的用戶群體,將成為世界數(shù)據(jù)量最大的國(guó)家。探索基于大數(shù)據(jù)的解決方案能夠解決海量數(shù)據(jù)帶來(lái)的問(wèn)題,并使國(guó)內(nèi)產(chǎn)業(yè)升級(jí)和提高效率。
三、云計(jì)算技術(shù)與大數(shù)據(jù)結(jié)合應(yīng)用
1、云計(jì)算技術(shù)
云計(jì)算,是互聯(lián)網(wǎng)基礎(chǔ)設(shè)施底層的抽象,是互聯(lián)網(wǎng)相關(guān)服務(wù)的使用和交付模式,并提供一個(gè)具有擴(kuò)展性和虛擬性地動(dòng)態(tài)資源。云計(jì)算,將加工程序自動(dòng)分割成許多較小子程序,通過(guò)互聯(lián)網(wǎng)使一個(gè)或多個(gè)服務(wù)器搜索大量系統(tǒng)的計(jì)算和分析的巨大處理能力。最后將計(jì)算處理結(jié)果反饋給用戶。云計(jì)算,強(qiáng)調(diào)動(dòng)態(tài)計(jì)算能力,大數(shù)據(jù),是靜態(tài)計(jì)算的對(duì)象。
2、云計(jì)算與大數(shù)據(jù)關(guān)系
云計(jì)算和大數(shù)據(jù)是相輔相成的關(guān)系。云計(jì)算提供了大數(shù)據(jù)存儲(chǔ)和操作地一個(gè)計(jì)算平臺(tái),大數(shù)據(jù)則利用分布式處理方法來(lái)應(yīng)用此平臺(tái),云計(jì)算與大數(shù)據(jù),前者強(qiáng)調(diào)計(jì)算能力,需要處理大量復(fù)雜數(shù)據(jù):包括數(shù)據(jù)獲取、整理、轉(zhuǎn)換、統(tǒng)計(jì)。云計(jì)算,要用大量數(shù)據(jù)作為運(yùn)算地基礎(chǔ),兩者是必然趨勢(shì)結(jié)合。在具體實(shí)際應(yīng)用中,云計(jì)算促進(jìn)了大數(shù)據(jù)的實(shí)際應(yīng)用,這種應(yīng)用出現(xiàn)在公共問(wèn)題領(lǐng)域等。借助云計(jì)算、云存儲(chǔ)、數(shù)據(jù)丟失、病毒入侵等問(wèn)題的優(yōu)勢(shì),保障數(shù)據(jù)安全和爆炸性增長(zhǎng)的數(shù)據(jù)為企業(yè)帶來(lái)了新的機(jī)遇和挑戰(zhàn)。
四、大數(shù)據(jù)在醫(yī)療行業(yè)應(yīng)用
1、醫(yī)療行業(yè)數(shù)據(jù)分析
隨著醫(yī)院信息化的快速發(fā)展,醫(yī)療行業(yè)產(chǎn)生大量的醫(yī)療數(shù)據(jù),如何使這些數(shù)據(jù)提供幫助,即節(jié)約醫(yī)療成本,提高醫(yī)療質(zhì)量,目前,醫(yī)療數(shù)據(jù)的應(yīng)用,還有一些問(wèn)題,一是醫(yī)療數(shù)據(jù)分散在各個(gè)醫(yī)療機(jī)構(gòu),二是數(shù)據(jù)利用率很低,醫(yī)院信息系統(tǒng)積累了大量的數(shù)據(jù),但在大多數(shù)情況下僅限于管理層面,很少涉及臨床專業(yè)水平。在面對(duì)大量的醫(yī)療數(shù)據(jù)積累的情況下,如果可以進(jìn)行有效的數(shù)據(jù)分析和數(shù)據(jù)挖掘,可以獲得大量的有價(jià)值的信息,可以幫助醫(yī)療和醫(yī)院決策者,從而推動(dòng)到醫(yī)院提供更好的醫(yī)療服務(wù),提高治療質(zhì)量。大數(shù)據(jù)技術(shù)將在醫(yī)療領(lǐng)域的公共基礎(chǔ)服務(wù)領(lǐng)域應(yīng)用,將能夠幫助醫(yī)院推動(dòng)醫(yī)療行業(yè)的進(jìn)步。
2、大數(shù)據(jù)的應(yīng)用
由于區(qū)域醫(yī)療信息化及醫(yī)療物聯(lián)網(wǎng)地應(yīng)用,能夠產(chǎn)生大量地?cái)?shù)據(jù):如測(cè)試結(jié)果、成本數(shù)據(jù)、傳感器數(shù)據(jù)、基因數(shù)據(jù)和圖像數(shù)據(jù)等,并且還包括大量的在線實(shí)時(shí)數(shù)據(jù)分析和處理的需求數(shù)據(jù),它們滿足大數(shù)據(jù)4V特征,屬于大數(shù)據(jù)類別。為了創(chuàng)造經(jīng)濟(jì)和社會(huì)價(jià)值,如何有效地管理利用這些海量地醫(yī)療數(shù)據(jù)是醫(yī)療行業(yè)面臨的挑戰(zhàn)。在醫(yī)學(xué)領(lǐng)域中大數(shù)據(jù)技術(shù)的應(yīng)用前景廣泛。主要包括以下幾個(gè)方面:
(1)臨床決策支持系統(tǒng)
將大數(shù)據(jù)技術(shù)應(yīng)用于臨床決策支持系統(tǒng),能使系統(tǒng)更加智能化。由于大數(shù)據(jù)分析技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)的強(qiáng)大的分析能力。例如:在醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)通過(guò)數(shù)據(jù)挖掘,為醫(yī)師提出更合理的診斷及治療意見(jiàn),提醒醫(yī)生對(duì)于預(yù)防潛在的錯(cuò)誤,例如由于藥品不良反應(yīng)等,通過(guò)采用圖像分析與識(shí)別技術(shù),對(duì)醫(yī)學(xué)圖像數(shù)據(jù)進(jìn)行識(shí)別并提高診斷和治療的質(zhì)量。
(2)個(gè)性化地醫(yī)療系統(tǒng)
通過(guò)對(duì)患者進(jìn)行如基因組數(shù)據(jù)分析的個(gè)性化醫(yī)療大型數(shù)據(jù)。綜合分析患者的特點(diǎn)及療效數(shù)據(jù)及對(duì)患者進(jìn)行基因測(cè)序的調(diào)查,對(duì)某一疾病患者的藥物特殊性和敏感性的反應(yīng)關(guān)系,及在治療過(guò)程中的特殊性進(jìn)行靶向治療。
(3)監(jiān)測(cè)與預(yù)報(bào)流行病
在中國(guó)疾病預(yù)防控制中心,建設(shè)突發(fā)公共衛(wèi)生事件和國(guó)家傳染病網(wǎng)絡(luò)報(bào)告系統(tǒng)已投入運(yùn)行,每年存儲(chǔ)的病例報(bào)告和信息有600多萬(wàn)左右,覆蓋了全國(guó)所有縣疾病控制機(jī)構(gòu)信息的年度報(bào)告。通過(guò)大數(shù)據(jù)技術(shù)報(bào)告海量數(shù)據(jù)可以進(jìn)行綜合性地分析及檢測(cè),對(duì)于通過(guò)綜合疾病監(jiān)測(cè)及反應(yīng)程序,準(zhǔn)確預(yù)測(cè)傳播時(shí)間和路徑,方便采取有效措施,減少傳染病的患病率。流感的準(zhǔn)確預(yù)測(cè)是利用大數(shù)據(jù)技術(shù)成功案例。谷歌公司對(duì)流感準(zhǔn)確預(yù)測(cè)的成功案例是大數(shù)據(jù)技術(shù)的應(yīng)用。谷歌公司把美國(guó)最常使用的搜索條目。與流感疫情在美國(guó)疾病預(yù)防控制中心的數(shù)據(jù)相比,確診了是否感染流感。人們通過(guò)使用特定的如“咳嗽和發(fā)熱藥”搜索詞,便獲得流感治療的互聯(lián)網(wǎng)信息,建立了特定的搜索條件和時(shí)間空間與流感之間聯(lián)系。比美國(guó)疾病控制和預(yù)防中心的數(shù)據(jù)提前一周。檢測(cè)流感傳播路徑,他們的判斷很及時(shí)。近年來(lái),醫(yī)療行業(yè)面臨著海量數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn),許多國(guó)家都在積極推動(dòng)醫(yī)療信息化的發(fā)展。因此,大數(shù)據(jù)技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用前景十分廣闊。
五、結(jié)束語(yǔ)
大數(shù)據(jù)技術(shù)在醫(yī)療領(lǐng)域的大規(guī)模應(yīng)用尚不完全成熟,但隨著高速網(wǎng)絡(luò)、云計(jì)算中心等基礎(chǔ)設(shè)施建設(shè)日趨完善和大數(shù)據(jù)技術(shù)的發(fā)展,醫(yī)學(xué)領(lǐng)域發(fā)展的趨勢(shì),將是推動(dòng)大數(shù)據(jù)技術(shù)的個(gè)性化、創(chuàng)新化,便利化醫(yī)療。云計(jì)算、移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,全球范圍內(nèi)數(shù)據(jù)增長(zhǎng)規(guī)模越來(lái)越大,大數(shù)據(jù)將被應(yīng)用到各行各業(yè),不僅改變了傳統(tǒng)的數(shù)據(jù)管理模式,帶來(lái)了新的思維、業(yè)務(wù)轉(zhuǎn)型和管理創(chuàng)新,提高企業(yè)和公共部門(mén)的生產(chǎn)力和競(jìng)爭(zhēng)力,也會(huì)帶來(lái)巨大的經(jīng)濟(jì)和社會(huì)價(jià)值。大數(shù)據(jù)已成為新發(fā)明和新服務(wù)的來(lái)源,是社會(huì)新的財(cái)富。
作者:郭群 單位:遼寧對(duì)外經(jīng)貿(mào)學(xué)院信息管理系
參考文獻(xiàn):
[1]張德豐.大數(shù)據(jù)走向云計(jì)算[M].北京:人民郵電出版社.2014.4.1.