婷婷超碰在线在线看a片网站|中国黄色电影一级片现场直播|欧美色欧美另类少妇|日韩精品性爱亚洲一级性爱|五月天婷婷乱轮网站|久久嫩草91婷婷操在线|日日影院永久免费高清版|一级日韩,一级鸥美A级|日韩AV无码一区小说|精品一级黄色毛片

首頁(yè) > 文章中心 > 數(shù)據(jù)分析分析技術(shù)

數(shù)據(jù)分析分析技術(shù)

前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)分析分析技術(shù)范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。

數(shù)據(jù)分析分析技術(shù)

數(shù)據(jù)分析分析技術(shù)范文第1篇

關(guān)鍵詞:告警數(shù)據(jù) Hadoop Spark

1 引言

隨著電信網(wǎng)絡(luò)的不斷演進(jìn),全省數(shù)據(jù)網(wǎng)、交換網(wǎng)、接入網(wǎng)設(shè)備單月產(chǎn)生告警原始日志近億條。以上告警通過(guò)網(wǎng)元網(wǎng)管、專(zhuān)業(yè)綜合網(wǎng)管、智能網(wǎng)管系統(tǒng)[1]三層收斂,監(jiān)控人員每月需處理影響業(yè)務(wù)或網(wǎng)絡(luò)質(zhì)量的告警事件為20萬(wàn)條,但一些對(duì)網(wǎng)絡(luò)可能造成隱患的告警信息被過(guò)濾掉。如何從海量告警數(shù)據(jù)中獲取與網(wǎng)絡(luò)性能指標(biāo)、運(yùn)維效率相關(guān)的有價(jià)值的數(shù)據(jù),對(duì)于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)架構(gòu)而言,似乎是一個(gè)不可能完成的任務(wù)。

在一般告警量情況下,ORACLE數(shù)據(jù)處理能力基本可以滿足分析需求,但當(dāng)告警分析量上升到億級(jí),如果采用傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式,一方面數(shù)據(jù)量過(guò)大,表的管理、維護(hù)開(kāi)銷(xiāo)過(guò)大,要做到每個(gè)字段建索引,存儲(chǔ)浪費(fèi)巨大;另一方面計(jì)算分析過(guò)程耗時(shí)過(guò)長(zhǎng),無(wú)法滿足實(shí)時(shí)和準(zhǔn)實(shí)時(shí)分析需求。因此必須采用新的技術(shù)架構(gòu)來(lái)分析處理海量告警信息,支撐主動(dòng)維護(hù)工作顯得尤為必要,為此我們引入了大數(shù)據(jù)技術(shù)。

2 分析目標(biāo)

(1)數(shù)據(jù)源:電信運(yùn)營(yíng)商網(wǎng)絡(luò)設(shè)備告警日志數(shù)據(jù),每天50 G。

(2)數(shù)據(jù)分析目標(biāo):完成高頻翻轉(zhuǎn)類(lèi)(瞬斷)告警分析;完成自定義網(wǎng)元、自定義告警等可定制告警分析;完成被過(guò)濾掉的告警分析、TOPN告警分析;核心設(shè)備和重要業(yè)務(wù)監(jiān)控。

(3)分析平臺(tái)硬件配置:云計(jì)算平臺(tái)分配8臺(tái)虛擬機(jī),每臺(tái)虛機(jī)配置CPU16核;內(nèi)存32 G;硬盤(pán)2 T。

3 制定方案

進(jìn)入大數(shù)據(jù)時(shí)代,行業(yè)內(nèi)涌現(xiàn)了大量的數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)處理和分析更高效、更有價(jià)值。Google、Facebook等公司提供可行的思路是通過(guò)類(lèi)似Hadoop[2]的分布式計(jì)算、MapReduce[3]、Spark[4]算法等構(gòu)造而成的新型架構(gòu),挖掘有價(jià)值信息。

Hadoop是Apache基金會(huì)用JAVA語(yǔ)言開(kāi)發(fā)的分布式框架,通過(guò)利用計(jì)算機(jī)集群對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分布式計(jì)算分析。Hadoop框架最重要的兩個(gè)核心是HDFS和MapReduce,HDFS用于分布式存儲(chǔ),MapReduce則實(shí)現(xiàn)分布式任務(wù)計(jì)算。

一個(gè)HDFS集群包含元數(shù)據(jù)節(jié)點(diǎn)(NameNode)、若干數(shù)據(jù)節(jié)點(diǎn)(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統(tǒng),DataNode存儲(chǔ)數(shù)據(jù)塊文件。HDFS將一個(gè)文件劃分成若干個(gè)數(shù)據(jù)塊,這些數(shù)據(jù)塊存儲(chǔ)DataNode節(jié)點(diǎn)上。

MapReduce是Google公司提出的針對(duì)大數(shù)據(jù)的編程模型。核心思想是將計(jì)算過(guò)程分解成Map(映射)和Reduce(歸約)兩個(gè)過(guò)程,也就是將一個(gè)大的計(jì)算任務(wù)拆分為多個(gè)小任務(wù),MapReduce框架化繁為簡(jiǎn),輕松地解決了數(shù)據(jù)分布式存儲(chǔ)的計(jì)算問(wèn)題,讓不熟悉并行編程的程序員也能輕松寫(xiě)出分布式計(jì)算程序。MapReduce最大的不足則在于Map和Reduce都是以進(jìn)程為單位調(diào)度、運(yùn)行、結(jié)束的,磁盤(pán)I/O開(kāi)銷(xiāo)大、效率低,無(wú)法滿足實(shí)時(shí)計(jì)算需求。

Spark是由加州伯克利大學(xué)AMP實(shí)驗(yàn)室開(kāi)發(fā)的類(lèi)Hadoop MapReduce的分布式并行計(jì)算框架,主要特點(diǎn)是彈性分布式數(shù)據(jù)集RDD[5],中間輸出結(jié)果可以保存在內(nèi)存中,節(jié)省了大量的磁盤(pán)I/O操作。Spark除擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)外,還支持多次迭代計(jì)算,特別適合流計(jì)算和圖計(jì)算。

基于成本、效率、復(fù)雜性等因素,我們選擇了HDFS+Spark實(shí)現(xiàn)對(duì)告警數(shù)據(jù)的挖掘分析。

4 分析平臺(tái)設(shè)計(jì)

4.1 Hadoop集群搭建

基于CentOS-6.5系統(tǒng)環(huán)境搭建Hadoop集群,配置如表1所示。

4.2 Spark參數(shù)設(shè)置[6]

Spark參數(shù)設(shè)置如表2所示。

4.3 數(shù)據(jù)采集層

數(shù)據(jù)采集:由于需采集的告警設(shè)備種類(lèi)繁多,故采取分布式的告警采集,數(shù)據(jù)網(wǎng)設(shè)備、交換網(wǎng)設(shè)備、接入網(wǎng)設(shè)備分別通過(guò)IP綜合網(wǎng)管、天元綜合網(wǎng)管、PON綜合網(wǎng)管進(jìn)行采集,采集周期5分鐘一次。采集機(jī)先將采集到的告警日志文件,通過(guò)FTP接口上傳到智能網(wǎng)管系統(tǒng)文件服務(wù)器上,再對(duì)文件進(jìn)行校驗(yàn),通過(guò)Sqoop推送到Hadoop集群上。

4.4 邏輯處理層

(1)建立高頻翻轉(zhuǎn)告警監(jiān)控工作流程

先將海量告警進(jìn)行初步刪選,通過(guò)數(shù)量、位置和時(shí)間三個(gè)維度的分析,得出高頻翻轉(zhuǎn)類(lèi)告警清單列表,最后由專(zhuān)業(yè)工程師甄別確認(rèn),對(duì)某類(lèi)告警進(jìn)行重點(diǎn)關(guān)注和監(jiān)控。

(2)差異化定制方案

按組網(wǎng)架構(gòu)細(xì)分,針對(duì)核心重要節(jié)點(diǎn)的所有告警均納入實(shí)時(shí)監(jiān)控方案;

按業(yè)務(wù)網(wǎng)絡(luò)細(xì)分,針對(duì)不同業(yè)務(wù)網(wǎng)絡(luò)設(shè)計(jì)個(gè)性化的監(jiān)控方案;

按客戶業(yè)務(wù)細(xì)分,針對(duì)客戶數(shù)字出租電路設(shè)計(jì)個(gè)性化的監(jiān)控方案。

4.5 數(shù)據(jù)分析層

Spark讀取Hive[7]表的告警數(shù)據(jù),然后在Spark引擎中進(jìn)行SQL統(tǒng)計(jì)分析。Spark SQL模K在進(jìn)行分析時(shí),將外部告警數(shù)據(jù)源轉(zhuǎn)化為DataFrame[8],并像操作RDD或者將其注冊(cè)為臨時(shí)表的方式處理和分析這些數(shù)據(jù)。一旦將DataFrame注冊(cè)成臨時(shí)表,就可以使用類(lèi)SQL的方式操作查詢分析告警數(shù)據(jù)。表3是利用Spark SQL對(duì)告警工單做的一個(gè)簡(jiǎn)單分析:

5 平臺(tái)實(shí)踐應(yīng)用

探索運(yùn)維數(shù)據(jù)分析的新方法,利用大數(shù)據(jù)分析技術(shù),分析可能影響業(yè)務(wù)/設(shè)備整體性能的設(shè)備告警,結(jié)合網(wǎng)絡(luò)性能數(shù)據(jù),找到網(wǎng)絡(luò)隱患,實(shí)現(xiàn)主動(dòng)維護(hù)的工作目標(biāo)。

5.1 高頻翻轉(zhuǎn)類(lèi)告警監(jiān)控

首先制定了高頻翻轉(zhuǎn)類(lèi)告警分析規(guī)則,將連續(xù)7天每天原始告警發(fā)生24次以上定義為高頻翻轉(zhuǎn)類(lèi)告警,并基于大數(shù)據(jù)平臺(tái)開(kāi)發(fā)了相應(yīng)的分析腳本,目前已實(shí)現(xiàn)全專(zhuān)業(yè)所有告警類(lèi)型的分析。表4是全省高頻翻轉(zhuǎn)類(lèi)TOP10排名。

5.2 核心設(shè)備和重要業(yè)務(wù)監(jiān)控

目前以設(shè)備廠商或?qū)<医?jīng)驗(yàn)評(píng)定告警監(jiān)控級(jí)別往往會(huì)與實(shí)際形成偏差,主要表現(xiàn)在以下幾個(gè)方面:監(jiān)控級(jí)別的差異化設(shè)定基于已知的告警類(lèi)型,一旦網(wǎng)絡(luò)重大故障上報(bào)未知的告警類(lèi)型就無(wú)法在第一時(shí)間有效監(jiān)控到;同一類(lèi)型的故障告警出現(xiàn)在不同網(wǎng)絡(luò)層面可能影響業(yè)務(wù)的程度是完全不同的;不同保障級(jí)別的客戶對(duì)故障告警監(jiān)控的實(shí)時(shí)性要求也是不同的。

通過(guò)大數(shù)據(jù)分析平臺(tái)對(duì)差異化監(jiān)控提供了靈活的定制手段,可根據(jù)告警關(guān)鍵字,分專(zhuān)業(yè)、地市、網(wǎng)管、機(jī)房、告警頻次等維度自主定制需要的告警數(shù)據(jù),實(shí)現(xiàn)日、周、月、某個(gè)時(shí)間區(qū)等統(tǒng)計(jì)分析。

應(yīng)用案例:省NOC通過(guò)大數(shù)據(jù)分析出一條編號(hào)為CTVPN80113的中國(guó)平安大客戶電路在一段時(shí)間內(nèi)頻繁產(chǎn)生線路劣化告警,但用戶未申告,省NOC隨即預(yù)警給政企支撐工程師,政支工程師與用戶溝通后,派維護(hù)人員至現(xiàn)場(chǎng)處理,發(fā)現(xiàn)線路接頭松動(dòng),緊急處理后告警消除、業(yè)務(wù)恢復(fù)。

5.3 被過(guò)濾告警分析

全省每天網(wǎng)絡(luò)告警數(shù)據(jù)300萬(wàn)條~500萬(wàn)條,其中99%都會(huì)根據(jù)告警過(guò)濾規(guī)則進(jìn)行過(guò)濾篩選,把過(guò)濾后的告警呈現(xiàn)給網(wǎng)絡(luò)監(jiān)控人員。過(guò)濾規(guī)則的準(zhǔn)確性直接影響告警數(shù)據(jù)的質(zhì)量。一般來(lái)說(shuō)告警過(guò)濾規(guī)則可以從具有豐富運(yùn)維經(jīng)驗(yàn)的網(wǎng)絡(luò)維護(hù)人員獲得,但是這個(gè)過(guò)程非常繁瑣,而且通過(guò)人工途徑獲得的告警過(guò)濾規(guī)則在不同的應(yīng)用環(huán)境可能存在差異,無(wú)法滿足網(wǎng)絡(luò)維護(hù)的整體需要。采用大數(shù)據(jù)技術(shù)對(duì)被過(guò)濾的告警進(jìn)行分析可以很好地完善過(guò)濾規(guī)則,讓真正急迫需要處理的告警優(yōu)先呈現(xiàn)給維護(hù)人員及時(shí)處理,真正做到先于客戶發(fā)現(xiàn)故障。表5是動(dòng)環(huán)專(zhuān)業(yè)被過(guò)濾的告警情況分布。

5.4 動(dòng)環(huán)深放電分析

動(dòng)環(huán)網(wǎng)管通過(guò)C接口采集蓄電池電壓數(shù)據(jù),在停電告警產(chǎn)生之后,電壓數(shù)據(jù)首次下降到45 V,表示該局站電池出現(xiàn)深放電現(xiàn)象,通過(guò)計(jì)算這一放電過(guò)程的持續(xù)時(shí)間,記為深放電時(shí)長(zhǎng),該時(shí)長(zhǎng)可以初步反映電池的放電性能。一個(gè)局站每天產(chǎn)生幾十萬(wàn)條電壓等動(dòng)環(huán)實(shí)時(shí)數(shù)據(jù)。

在告警數(shù)據(jù)分析的基礎(chǔ)上,實(shí)現(xiàn)對(duì)蓄電池電壓變化數(shù)據(jù)的分析,提醒分公司關(guān)注那些深放電次數(shù)過(guò)多和放電時(shí)長(zhǎng)過(guò)短的局站,核查蓄電池、油機(jī)配置、發(fā)電安排等,并進(jìn)行整治。利用Spark SQL統(tǒng)計(jì)了一個(gè)月內(nèi)撫州、贛州、吉安三分公司幾十億條動(dòng)環(huán)數(shù)據(jù),分析了其中深放電的情況如表6所示。

6 結(jié)論

本文利用HDFS+Spark技術(shù),實(shí)驗(yàn)性地解決告警數(shù)據(jù)存儲(chǔ)和分析等相關(guān)問(wèn)題:一是通過(guò)數(shù)據(jù)分析,從海量告警數(shù)據(jù)中發(fā)現(xiàn)潛在的網(wǎng)絡(luò)隱患;二是結(jié)合資源信息和不同專(zhuān)業(yè)的告警,最終為用戶提供綜合預(yù)警;三是轉(zhuǎn)變網(wǎng)絡(luò)監(jiān)控思路和方式,通過(guò)數(shù)據(jù)匯聚、數(shù)據(jù)相關(guān)性分析、數(shù)據(jù)可視化展示,提高了網(wǎng)絡(luò)監(jiān)控效率;最后還擴(kuò)展到對(duì)動(dòng)環(huán)實(shí)時(shí)數(shù)據(jù)、信令數(shù)據(jù)進(jìn)行分析。

從實(shí)際運(yùn)行效果來(lái)看,HDFS和Spark完全可以取代傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式,滿足電信運(yùn)營(yíng)商主動(dòng)運(yùn)維的需求。

參考文獻(xiàn):

[1] 中國(guó)電信股份有限公司. 中國(guó)電信智能網(wǎng)管技術(shù)規(guī)范-總體分冊(cè)[Z]. 2015.

[2] Tom white. Hadoop權(quán)威指南[M]. 4版. 南京: 東南大學(xué)出版社, 2015.

[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.

[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.

[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.

[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業(yè)出版社, 2015.

[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.

[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.

[9] 員建廈. 基于動(dòng)態(tài)存儲(chǔ)策略的數(shù)據(jù)管理系統(tǒng)[J]. 無(wú)線電工程, 2014,44(11): 52-54.

數(shù)據(jù)分析分析技術(shù)范文第2篇

【關(guān)鍵詞】 數(shù)據(jù)挖掘技術(shù) 頻譜數(shù)據(jù)分析

前言:在對(duì)頻譜監(jiān)測(cè)數(shù)據(jù)分析中,簡(jiǎn)單統(tǒng)計(jì)分析已經(jīng)無(wú)法滿足頻譜監(jiān)測(cè)數(shù)據(jù)實(shí)際需求,需要對(duì)數(shù)據(jù)深入研究,探索配頻譜監(jiān)測(cè)數(shù)據(jù)潛在關(guān)聯(lián),尋找到異常信號(hào),有效提升頻譜監(jiān)測(cè)精確性,起到輔作用。數(shù)據(jù)挖掘技術(shù)在應(yīng)用過(guò)程中,能夠挖掘海量數(shù)據(jù)內(nèi)價(jià)值,有關(guān)監(jiān)督設(shè)備可以對(duì)數(shù)據(jù)進(jìn)行掃描,深入分析有關(guān)數(shù)據(jù)。

一、數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介

1.1數(shù)據(jù)挖掘的概念

在上世紀(jì)90年代內(nèi),研究人員提出了數(shù)據(jù)挖掘,主要目的就是希望能夠?qū)⑺杉降膽?yīng)用數(shù)據(jù)內(nèi)所具有的潛在價(jià)值信息挖掘,獲取價(jià)值信息。數(shù)據(jù)挖掘內(nèi)包含較多學(xué)科內(nèi)容,例如人工智能、統(tǒng)計(jì)、可視化技術(shù)、數(shù)據(jù)庫(kù)等。數(shù)據(jù)挖掘在對(duì)數(shù)據(jù)分析研究過(guò)程中,主要采取分類(lèi)及聚類(lèi)進(jìn)行監(jiān)測(cè),對(duì)有關(guān)知識(shí)進(jìn)行演變。數(shù)據(jù)挖掘常見(jiàn)模式主要分為四種,分別為頻繁模式、分類(lèi)模式、聚類(lèi)模式與異常模式[1]。

1.2數(shù)據(jù)挖掘的過(guò)程

1、數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備階段主要包含兩方面工作,分別為數(shù)據(jù)獲取和數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘應(yīng)用點(diǎn)在確定之后,能夠有效對(duì)有關(guān)數(shù)據(jù)進(jìn)行收集,同時(shí)對(duì)數(shù)據(jù)背景進(jìn)行掌握,對(duì)挖掘模式進(jìn)行確定。有關(guān)數(shù)據(jù)在收集之后,需要對(duì)數(shù)據(jù)內(nèi)所包含的冗余數(shù)據(jù)及空缺數(shù)據(jù)進(jìn)行預(yù)處理,為計(jì)算機(jī)分析奠定堅(jiān)實(shí)基礎(chǔ)。

2、數(shù)據(jù)挖掘。數(shù)據(jù)娃聚主要是在數(shù)量及挖掘目標(biāo)確定之后,選擇合適的數(shù)據(jù)挖掘方法及技術(shù),對(duì)數(shù)據(jù)進(jìn)行計(jì)算分析,構(gòu)建針對(duì)性數(shù)據(jù)。

3、挖掘結(jié)果展示。數(shù)據(jù)挖掘技術(shù)所得到的數(shù)據(jù)結(jié)果,十分抽象,除了數(shù)據(jù)挖掘技術(shù)行業(yè)工作人員無(wú)法對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行了解,所以需要對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行轉(zhuǎn)化,通過(guò)圖形及圖像的方式,將挖掘結(jié)果在屏幕內(nèi)顯示出來(lái),直觀將挖掘結(jié)果展示出來(lái),用戶能夠?qū)ν诰蚪Y(jié)果深入理解。

4、挖掘結(jié)果應(yīng)用分析。按照挖掘背景及目的,對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行系統(tǒng)性分析研究,進(jìn)而找到海量數(shù)據(jù)內(nèi)具有價(jià)值的信息,同時(shí)這些信息技有關(guān)生產(chǎn),對(duì)數(shù)據(jù)挖掘結(jié)果正確性進(jìn)行判斷,對(duì)數(shù)據(jù)挖掘有關(guān)知識(shí)進(jìn)行修正、完善[2]。

二、數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測(cè)數(shù)據(jù)分析中的應(yīng)用

2.1認(rèn)知無(wú)線電中頻譜資源預(yù)測(cè)應(yīng)用

認(rèn)知無(wú)線在頻譜監(jiān)測(cè)數(shù)據(jù)內(nèi)應(yīng)用,能夠有效提高頻譜監(jiān)測(cè)數(shù)據(jù)質(zhì)量,同時(shí)非授權(quán)用戶也可以對(duì)頻譜資源進(jìn)行利用。授權(quán)用戶在對(duì)頻譜監(jiān)測(cè)數(shù)應(yīng)用過(guò)程中,非授權(quán)用戶能夠直接將頻譜監(jiān)測(cè)數(shù)據(jù)資源讓出來(lái),非授權(quán)用戶就需要充分構(gòu)建頻譜途徑,構(gòu)建通信連接。非授權(quán)用戶要是沒(méi)有直接將頻譜資源讓出來(lái),授權(quán)用戶與非授權(quán)用戶之間就會(huì)產(chǎn)生矛盾,進(jìn)而造成通信中斷,這樣情況所將的損失將是無(wú)法預(yù)計(jì)的。所以,非授權(quán)用戶及授權(quán)用戶要是都能夠?qū)︻l譜資源精確劃分,能夠有效對(duì)資源矛盾事件防止,在這種情況下頻譜監(jiān)測(cè)資源利用效率也就顯著提升。

正式由于認(rèn)識(shí)無(wú)線電技術(shù)在實(shí)際應(yīng)用內(nèi)所具有的優(yōu)勢(shì),在對(duì)認(rèn)知無(wú)線電技術(shù)分析研究過(guò)程中,需要將重點(diǎn)放在授權(quán)用戶應(yīng)用規(guī)律上面,對(duì)授權(quán)用戶占據(jù)頻譜監(jiān)測(cè)數(shù)據(jù)空余時(shí)間進(jìn)行預(yù)測(cè),幫助非授權(quán)用戶能夠在授權(quán)用戶空余時(shí)間內(nèi)尋找利用有關(guān)資源,這種預(yù)測(cè)性分析研究主要是通過(guò)數(shù)據(jù)挖掘技術(shù)內(nèi)的頻發(fā)模式實(shí)現(xiàn)。

2.2異常無(wú)線電信號(hào)監(jiān)測(cè)應(yīng)用

無(wú)線電監(jiān)測(cè)站在常規(guī)監(jiān)測(cè)過(guò)程中,最為主要的一項(xiàng)工作就是對(duì)異常無(wú)線電信號(hào)進(jìn)行監(jiān)測(cè),嚴(yán)禁非法占用情況出現(xiàn),有效提高無(wú)線電通信安全性能。

按照無(wú)線電監(jiān)測(cè)所產(chǎn)生的數(shù)據(jù)可知,頻譜設(shè)備屬于常規(guī)性運(yùn)行,一旦出現(xiàn)異常運(yùn)行情況,所輸出的信號(hào)就與常規(guī)狀態(tài)下信號(hào)存在一定差異。所以,想要了解頻譜設(shè)備出現(xiàn)異常情況,只需要將將信號(hào)進(jìn)行分析比較,數(shù)據(jù)挖掘技術(shù)能夠有效對(duì)海量信號(hào)內(nèi)特點(diǎn)進(jìn)行提取,在海量信號(hào)內(nèi)尋找到異常信號(hào)。數(shù)據(jù)挖掘技術(shù)在無(wú)線電監(jiān)測(cè)內(nèi)應(yīng)用,首先是通過(guò)無(wú)線電監(jiān)測(cè)歷史數(shù)據(jù)構(gòu)建數(shù)據(jù)模型,模型在具有自我學(xué)習(xí)能力之后,能夠應(yīng)對(duì)無(wú)線電瞬息變化環(huán)境,對(duì)數(shù)據(jù)模型與歷史數(shù)據(jù)模型相似點(diǎn)進(jìn)行計(jì)算,在發(fā)現(xiàn)無(wú)線電設(shè)備出現(xiàn)異常運(yùn)行情況之后,數(shù)據(jù)模型就會(huì)發(fā)出警告。

結(jié)論:數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測(cè)數(shù)據(jù)分析內(nèi)應(yīng)用,能夠有效對(duì)l譜監(jiān)測(cè)數(shù)據(jù)分析流程進(jìn)行簡(jiǎn)化,在大量數(shù)據(jù)信息內(nèi)高效率的找到針對(duì)性數(shù)據(jù)信息,提高信息挖掘質(zhì)量,進(jìn)而為管理人員提供針對(duì)性意見(jiàn)。正式由于數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測(cè)數(shù)據(jù)分析內(nèi)所具有的作用,所以對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行分析研究,能夠有效推動(dòng)頻譜監(jiān)測(cè)數(shù)據(jù)發(fā)展。

參 考 文 獻(xiàn)

數(shù)據(jù)分析分析技術(shù)范文第3篇

關(guān)鍵詞:油田生產(chǎn);大數(shù)據(jù);數(shù)據(jù)挖掘

前言

新疆油田重油開(kāi)發(fā)公司是以稠油開(kāi)采為主的采油廠。有著將近10年的數(shù)字油田建設(shè)歷史。而且中心數(shù)據(jù)庫(kù)已經(jīng)做得很成熟,主要包括五大業(yè)務(wù)板塊數(shù)據(jù)。即勘探業(yè)務(wù)板塊、開(kāi)發(fā)業(yè)務(wù)板塊、生產(chǎn)業(yè)務(wù)板塊、經(jīng)營(yíng)業(yè)務(wù)板塊的數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)包括的內(nèi)容主要有單井、區(qū)塊的日月報(bào)數(shù)據(jù)、試井與生產(chǎn)測(cè)井?dāng)?shù)據(jù)、分析化驗(yàn)數(shù)據(jù)、井下作業(yè)和地理信息數(shù)據(jù)等。數(shù)據(jù)庫(kù)的數(shù)據(jù)資源種類(lèi)齊全,質(zhì)量高。2010年新疆油田重油開(kāi)發(fā)公司正式開(kāi)始進(jìn)行智能化油田建設(shè)工作,利用物聯(lián)網(wǎng)診斷單井問(wèn)題,使用大數(shù)據(jù)技術(shù)對(duì)油田進(jìn)行全面感知、分析預(yù)測(cè)、優(yōu)化決策找到油水井的生產(chǎn)規(guī)律,從而有助于油田生產(chǎn)工作進(jìn)行。

1 油田大數(shù)據(jù)的概念及處理流程

大數(shù)據(jù)有四個(gè)特點(diǎn)即量大(Volume)、快速生產(chǎn)(Velocity)、類(lèi)型豐富(Variety)、真實(shí)性(Veracity),被稱(chēng)為4V[1]。由于數(shù)據(jù)的數(shù)量非常大,就將數(shù)據(jù)組成數(shù)據(jù)集,進(jìn)行管理、處理實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。大數(shù)據(jù)對(duì)數(shù)據(jù)庫(kù)的整理流程是將數(shù)據(jù)轉(zhuǎn)化為信息,將信息轉(zhuǎn)化為知識(shí),再將知識(shí)轉(zhuǎn)化為智慧。這個(gè)過(guò)程應(yīng)用于油田可以理解為是對(duì)油田的生產(chǎn)和管理工作。大數(shù)據(jù)的七個(gè)處理步驟包括:對(duì)數(shù)據(jù)的提取和收集、清洗數(shù)據(jù)、分析數(shù)據(jù)找到潛在的內(nèi)在價(jià)值規(guī)律、建立預(yù)測(cè)模型、對(duì)結(jié)果進(jìn)行可視化的估計(jì)、驗(yàn)證結(jié)果、評(píng)估模型。

2 大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)研究

新疆油田為了滿足生產(chǎn)應(yīng)用,構(gòu)建了一個(gè)有效的大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)。此平臺(tái)主要包括四個(gè)基礎(chǔ)架構(gòu):數(shù)據(jù)抽取平臺(tái)、進(jìn)行分布式的存儲(chǔ)平臺(tái)、大數(shù)據(jù)的分析與展示平臺(tái)。最底層是數(shù)據(jù)抽取平臺(tái)主要是實(shí)現(xiàn)數(shù)據(jù)的整合,將數(shù)據(jù)轉(zhuǎn)化成適合進(jìn)行數(shù)據(jù)挖掘或者建模的形式,構(gòu)建可靠的樣本數(shù)據(jù)集。存儲(chǔ)平臺(tái)主要是對(duì)數(shù)據(jù)進(jìn)行匯總、建模、分析,最后將處理好的數(shù)據(jù)進(jìn)行儲(chǔ)存。其功能與數(shù)據(jù)倉(cāng)庫(kù)相似。大數(shù)據(jù)分析層,是在大數(shù)據(jù)建模的工具和算法基礎(chǔ)上,挖掘隱藏的數(shù)據(jù)模式和關(guān)系,利用數(shù)據(jù)軟件進(jìn)行分類(lèi)、建模,生成預(yù)測(cè)的結(jié)果,結(jié)合專(zhuān)家經(jīng)驗(yàn)利用測(cè)試的樣本選定評(píng)價(jià)方案不斷提高模型的精度,更好的用于油田的決策。數(shù)據(jù)應(yīng)用層主要是把建立的模型設(shè)計(jì)為運(yùn)行軟件,運(yùn)用建模方法實(shí)現(xiàn)數(shù)據(jù)的可視化界面設(shè)計(jì),更好的實(shí)現(xiàn)人機(jī)交互。

3 大數(shù)據(jù)分析技術(shù)研究

進(jìn)行大數(shù)據(jù)分析時(shí)我們經(jīng)常采用兩大技術(shù)即大數(shù)據(jù)預(yù)處理和抽取技術(shù),大數(shù)據(jù)分析技術(shù)。

3.1 大數(shù)據(jù)抽取及預(yù)處理技術(shù)

大數(shù)據(jù)預(yù)處理和抽取技術(shù)的原理是指將不同名稱(chēng),不同時(shí)間,不同地點(diǎn)的多種不同結(jié)構(gòu)和類(lèi)別的數(shù)據(jù)抽取處理成一種所表達(dá)的算法和內(nèi)涵一致便于處理類(lèi)型的數(shù)據(jù)結(jié)構(gòu)[2]。在檢查數(shù)據(jù)缺失、數(shù)據(jù)異常時(shí)可以使用數(shù)據(jù)清洗方法確定有用的數(shù)據(jù),一般采用剔除法或估計(jì)值法、填補(bǔ)平均值替換錯(cuò)誤的數(shù)據(jù)。為了滿足建模所需的大量數(shù)據(jù),創(chuàng)建新的字段時(shí)需要進(jìn)行數(shù)據(jù)庫(kù)的構(gòu)建。將原始數(shù)據(jù)用一定的方法如歸一法轉(zhuǎn)換為可用于數(shù)據(jù)挖掘的數(shù)據(jù),這個(gè)過(guò)程為數(shù)據(jù)轉(zhuǎn)換。

3.2 大數(shù)據(jù)分析技術(shù)

應(yīng)用于油田的大數(shù)據(jù)分析技術(shù)為:因子分析技術(shù)、聚類(lèi)分析技術(shù)、回歸分析技術(shù)和數(shù)據(jù)挖掘技術(shù)。其中的因子分析技術(shù)是指,利用少數(shù)的因子對(duì)多個(gè)指標(biāo)和因素間的相關(guān)性進(jìn)行描述,一般將密切相關(guān)的多個(gè)變量歸納為一類(lèi),這一類(lèi)數(shù)據(jù)就屬于一個(gè)影響因子,用較少的因子反應(yīng)大量數(shù)據(jù)的信息。聚類(lèi)分析技術(shù)是指把具有某種共同特性的事物或者物體歸屬于一個(gè)類(lèi)型,并按照這些特性劃分為幾個(gè)類(lèi)別,同種類(lèi)型的事物相似性較高。這樣更利于辨別預(yù)先未知的事物特征?;貧w分析是指在一組數(shù)據(jù)的基礎(chǔ)之上,研究一個(gè)變量和其他變量間隱藏的關(guān)系。利用回歸方程,進(jìn)行回歸分析,從而有規(guī)律地把變量之間的不規(guī)則,不確定的復(fù)雜關(guān)系簡(jiǎn)單得表示出來(lái)。

在使用大數(shù)據(jù)進(jìn)行分析時(shí),數(shù)據(jù)挖掘技術(shù)是最關(guān)鍵的一門(mén)技術(shù)。該技術(shù)將大量復(fù)雜的、隨機(jī)性的、模糊的、不完整的數(shù)據(jù)進(jìn)行分析,挖掘出對(duì)人類(lèi)未來(lái)有用的數(shù)據(jù),即提前獲得未知信息的過(guò)程[3]。數(shù)據(jù)挖掘功能分為預(yù)測(cè)功能和描述功能。數(shù)據(jù)預(yù)測(cè)是指對(duì)數(shù)據(jù)進(jìn)行處理推算,完成預(yù)測(cè)的目的。數(shù)據(jù)描述是展現(xiàn)集體數(shù)據(jù)的特性。數(shù)據(jù)挖掘功能是與數(shù)據(jù)的目標(biāo)類(lèi)型有關(guān),有的功能適用于不同類(lèi)型的數(shù)據(jù),有的功能則只適用于特定功能的數(shù)據(jù)。數(shù)據(jù)挖掘的作用就是讓人們能夠提前得到未知的消息,提升數(shù)據(jù)的有效性,使其可以應(yīng)用于不同的領(lǐng)域。

4 大數(shù)據(jù)分析在油田生產(chǎn)中的應(yīng)用研究

4.1 異常井自動(dòng)識(shí)別

油田生產(chǎn)過(guò)程中影響最大的一個(gè)因素是異常井的出現(xiàn),因此生產(chǎn)管理人員加大了對(duì)異常井的重視。最初,異常井的識(shí)別主要是依靠生產(chǎn)部門(mén)的生產(chǎn)人員,必須經(jīng)過(guò)人工查閱許多關(guān)于油田生產(chǎn)的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說(shuō)大量的檢索工作、耗費(fèi)時(shí)間長(zhǎng)等,對(duì)異常井的診斷和措施制定造成很大的困難。異常井是指油井當(dāng)天的產(chǎn)油量和上個(gè)月相比波動(dòng)很大,并大于正常的波動(dòng)范圍。目前廣泛采用數(shù)據(jù)挖掘技術(shù)和聚類(lèi)分析技術(shù)對(duì)異常井進(jìn)行識(shí)別,提高效率。為了實(shí)現(xiàn)算法編譯使用技術(shù),系統(tǒng)架構(gòu)B/S模式進(jìn)行,能夠及時(shí)發(fā)現(xiàn)異常井的存在。

4.2 異常井智能診斷

異常井診斷是油田每天進(jìn)行生產(chǎn)必須要完成的工序。而大部分油田采用人工方法對(duì)其進(jìn)行異常診斷,工作量極大,影響因素較多,診斷結(jié)果的可靠性較低,對(duì)后期進(jìn)行計(jì)劃實(shí)施造成很大的影響。這時(shí)可以采用智能診斷方法,利用灰度圖像處理技術(shù)和人臉識(shí)別算法建立抽油井的特征功圖庫(kù),對(duì)比油井當(dāng)前的功圖和所建立的特征功圖,實(shí)現(xiàn)異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時(shí)一種工況可能會(huì)有許多中表現(xiàn)方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個(gè)工況下關(guān)聯(lián)的因子間是如何變化,然后建立參數(shù)診斷數(shù)據(jù)庫(kù),對(duì)比相關(guān)因子的指標(biāo)項(xiàng),找到異常的原因,采取適合的方案進(jìn)行修改,從而提高單井的生產(chǎn)效率。

4.3 間抽井開(kāi)關(guān)井計(jì)劃制訂

當(dāng)油田開(kāi)發(fā)進(jìn)入后期階段就會(huì)出現(xiàn)很多問(wèn)題,過(guò)度開(kāi)發(fā)使得地層的能量越來(lái)越少,致使更多供液不足的井開(kāi)發(fā)出來(lái)。將這類(lèi)井稱(chēng)之為間歇出油井。新疆油田一般會(huì)使用人工方法制訂間歇出油井的開(kāi)關(guān)時(shí)間計(jì)劃,但是對(duì)于計(jì)劃的合理性沒(méi)有進(jìn)行檢驗(yàn)。若是能夠控制好間歇出油井的開(kāi)關(guān)時(shí)間,對(duì)油田實(shí)現(xiàn)節(jié)能減排是至關(guān)重要的。這時(shí)可以采用因子分析方法和回歸分析法進(jìn)行研究,利用數(shù)據(jù)挖掘技術(shù)找出影響間歇出油井的開(kāi)關(guān)時(shí)間的因素,建立合適的分析模型,對(duì)模型進(jìn)行線性回歸,進(jìn)行歸一化處理。從而為業(yè)務(wù)人員提供制訂間歇出油井開(kāi)關(guān)時(shí)間的合理方案,達(dá)到節(jié)能減排的效果。

4.4 油井清防蠟預(yù)測(cè)

目前油田上對(duì)于油井清蠟采取平均每口井一個(gè)月清洗一次蠟的措施,按照人工計(jì)劃進(jìn)行,出現(xiàn)了許多問(wèn)題。比如,一些井還沒(méi)有結(jié)蠟就已被清洗,有些井已經(jīng)結(jié)蠟,卻沒(méi)有得到及時(shí)清洗。這樣既浪費(fèi)大量的人力物力,而且還對(duì)油田的生產(chǎn)效率產(chǎn)生不利影響。若是利用因子分析法,將收集的關(guān)于結(jié)蠟周期、清蠟方式、清蠟用量、油井狀況等數(shù)據(jù)進(jìn)行分析,建立油井Y蠟?zāi)P停倮没貧w分析法對(duì)建立的模型建立曲線方程,進(jìn)行預(yù)測(cè),找到結(jié)蠟時(shí)間,推斷出結(jié)蠟周期,更好的指導(dǎo)油田清蠟工序的進(jìn)行,提高油田的精細(xì)化管理。

5 結(jié)束語(yǔ)

總之,對(duì)比以前利用人工進(jìn)行油田生產(chǎn)可以發(fā)現(xiàn)大數(shù)據(jù)對(duì)于油田生產(chǎn)是非常必要的,可以更快的挖掘油田的生產(chǎn)作業(yè)規(guī)律,解決油田生產(chǎn)的困難。而且,可以利用油田數(shù)據(jù)進(jìn)行可視化分析,關(guān)注問(wèn)題的主要影響因素找到管理中存在的不足,預(yù)防未來(lái)問(wèn)題的出現(xiàn)。大數(shù)據(jù)的核心價(jià)值就是通過(guò)以往大量數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)出未來(lái),從而更好地指導(dǎo)油田的生產(chǎn)工作。

參考文獻(xiàn)

[1]楊澤民.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].軟件,2013(11):71-72.

數(shù)據(jù)分析分析技術(shù)范文第4篇

    論文摘要:電子商務(wù)(EC)在現(xiàn)代商務(wù)企業(yè)的發(fā)展中占有越來(lái)越重要的地位。如何利用信息技術(shù)掌握更多的商務(wù)信息已備受商家們的關(guān)注,站點(diǎn)分析技術(shù)正是為商家和網(wǎng)站提供了這樣一種有效的分析工具。

    本文討論了一些站點(diǎn)分析的相關(guān)技術(shù)信息和幾種網(wǎng)站分析瀏覽者行為的理論與算法,及數(shù)據(jù)倉(cāng)庫(kù)的相關(guān)理論知識(shí)。并對(duì)站點(diǎn)日志數(shù)據(jù)進(jìn)行了實(shí)例分析,并指出了站點(diǎn)分析技術(shù)發(fā)展的方向。

    一、緒論

    互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟(jì)帶來(lái)新的革命,從而也影響著人們的生活?;ヂ?lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對(duì)廣大網(wǎng)民的信息載體,企業(yè)通過(guò)這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線。

    電子商務(wù)就是網(wǎng)上實(shí)行各種商務(wù)活動(dòng)的總包裝,種種所謂電子商務(wù)解決方案,實(shí)際上就是實(shí)現(xiàn)各種網(wǎng)上商務(wù)活動(dòng)的硬件與軟件系統(tǒng)。它將影響到每一個(gè)人、每一個(gè)企業(yè)。電子商務(wù)的主體是我們每一個(gè)人、每一個(gè)企業(yè),電子商務(wù)發(fā)展的過(guò)程就是對(duì)人們的生活、企業(yè)的運(yùn)行的一種模式的一個(gè)巨大改變的過(guò)程。對(duì)于進(jìn)入虛擬世界的商家而言,僅僅吸引注意力還不行,對(duì)它們而言,站點(diǎn)的訪問(wèn)率絕對(duì)不僅僅是一個(gè)數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò)中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機(jī)。

    電子商務(wù)站點(diǎn)用戶行為的分析這一問(wèn)題也因此成為現(xiàn)如今的熱門(mén)話題,被人們普遍關(guān)心起來(lái),尤其是被眾商家所重視。Web站點(diǎn)的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長(zhǎng)。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識(shí)(包括模式、規(guī)則、可視化結(jié)構(gòu)等)也成為現(xiàn)在人們最關(guān)注的信息。

    在此情況下,站點(diǎn)用戶行為分析就可為網(wǎng)站或商家提供出大量有價(jià)值的信息,包括站點(diǎn)的受歡迎度的對(duì)比、商業(yè)廣告點(diǎn)擊情況總括、產(chǎn)品的反饋信息、站點(diǎn)各種信息的點(diǎn)擊情況等等。另外,還可根據(jù)不同的頁(yè)面內(nèi)容來(lái)分類(lèi)瀏覽者,以便做出更合理的頁(yè)面分類(lèi),促使網(wǎng)站逐步向個(gè)性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對(duì)互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對(duì)信息技術(shù)亦將產(chǎn)生深遠(yuǎn)的影響。

    在電子商務(wù)早期階段時(shí),Web站點(diǎn)數(shù)據(jù)流分析通常是在主頁(yè)上安裝計(jì)數(shù)器以及在一個(gè)外部日志文件上運(yùn)行簡(jiǎn)單的統(tǒng)計(jì)程序記錄點(diǎn)擊率。但是,簡(jiǎn)單的點(diǎn)擊計(jì)數(shù)既不準(zhǔn)確也遠(yuǎn)未達(dá)到營(yíng)銷(xiāo)目的所需的詳細(xì)程度。因此,各公司開(kāi)始尋找更先進(jìn)的分析工具,這類(lèi)工具可以提供誰(shuí)在訪問(wèn)公司W(wǎng)eb站點(diǎn)以及訪問(wèn)者一旦進(jìn)入站點(diǎn)后將做些什么的全面信息。站點(diǎn)開(kāi)始分析的地方是Web服務(wù)器的訪問(wèn)日志。每當(dāng)用戶在站點(diǎn)上請(qǐng)求一個(gè)網(wǎng)頁(yè)時(shí),這個(gè)請(qǐng)求就被記錄在訪問(wèn)日志中。如:目前有多少用戶正在訪問(wèn)站點(diǎn)、他們正在看哪些網(wǎng)頁(yè)以及他們?cè)谡军c(diǎn)中呆了多長(zhǎng)時(shí)間。顯然,日志分析和行為概況的正確組合可以對(duì)Web站點(diǎn)的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實(shí)世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數(shù)據(jù)流分析工具的這些最新進(jìn)展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶和他們習(xí)慣的詳細(xì)報(bào)告。

    二、站點(diǎn)信息統(tǒng)計(jì)方法

    Web頁(yè)面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢(shì)。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒(méi)有模式的無(wú)序數(shù)據(jù)之間,在查詢前無(wú)法預(yù)先確定其具體的類(lèi)型和格式;同時(shí)它們相應(yīng)的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒(méi)有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進(jìn)行抽取。而有時(shí),盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的

    主要特點(diǎn):

    1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類(lèi)型或不同的結(jié)構(gòu)表示。

    2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。

    3.結(jié)構(gòu)是部分的,有時(shí)部分?jǐn)?shù)據(jù)根本無(wú)結(jié)構(gòu),而部分?jǐn)?shù)據(jù)只有粗略的結(jié)構(gòu)。

    4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫(kù)使用嚴(yán)格的分類(lèi)策略來(lái)保護(hù)數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對(duì)結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價(jià)是要頻繁修改結(jié)構(gòu)。

    5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過(guò)當(dāng)前數(shù)據(jù)歸納出其結(jié)構(gòu),稱(chēng)之為事后模式引導(dǎo)。模式有時(shí)可被忽略,同時(shí)數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。

    三、數(shù)據(jù)分析的方法

    Web頁(yè)面的數(shù)據(jù)通常是利用統(tǒng)計(jì)模型和數(shù)學(xué)模型來(lái)分析的。使用的模型有線性分析和非線性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時(shí)間序列分析等。這些統(tǒng)計(jì)分析工具能提供可視化功能和分析功能來(lái)尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來(lái)分析、解釋數(shù)據(jù)。并通過(guò)交互式過(guò)程和迭代過(guò)程用來(lái)求精模型,最終開(kāi)發(fā)出最具適應(yīng)性的模型來(lái)將數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息。

    知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)倉(cāng)庫(kù)的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢(shì)并發(fā)掘?qū)嵤K欠治鯳eb頁(yè)面數(shù)據(jù)的重要方法。知識(shí)發(fā)現(xiàn)與模式識(shí)別的算法有以下幾種:

    1.依賴(lài)性分析

    依賴(lài)性分析算法搜索數(shù)據(jù)倉(cāng)庫(kù)的條目和對(duì)象,從中尋找重復(fù)出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴(lài)關(guān)系。利用依賴(lài)性分析算法可以從某一數(shù)據(jù)對(duì)象的信息來(lái)推斷另一數(shù)據(jù)對(duì)象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因?yàn)榻?jīng)過(guò)依賴(lài)性分析,商店認(rèn)為:很大一部分買(mǎi)飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會(huì)購(gòu)買(mǎi),因而此種分析影響了商店布局。

    2.聚類(lèi)和分類(lèi)

    在某些情況下,無(wú)法界定要分析的數(shù)據(jù)類(lèi),用聚類(lèi)算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類(lèi)或懷疑的數(shù)據(jù)類(lèi)。聚類(lèi)的過(guò)程是以某一特定時(shí)間為依據(jù),找出一個(gè)共享一些公共類(lèi)別的群體,它稱(chēng)為無(wú)監(jiān)督學(xué)習(xí)。分類(lèi)過(guò)程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時(shí)間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類(lèi)很少在關(guān)系數(shù)據(jù)庫(kù)中進(jìn)行定義,因而規(guī)范的數(shù)據(jù)模型中沒(méi)有它們的位置。最典型的例子是信用卡核準(zhǔn)過(guò)程,可確定能否按商品價(jià)格和其它標(biāo)準(zhǔn)把某一購(gòu)買(mǎi)者歸入可接受的那一類(lèi)中。分類(lèi)又稱(chēng)為有監(jiān)督學(xué)習(xí)。

    3.神經(jīng)網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)待分析數(shù)據(jù)中的模式來(lái)構(gòu)造模型。它對(duì)隱式類(lèi)型進(jìn)行分類(lèi)。圖像分析是神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一。神經(jīng)網(wǎng)絡(luò)用于模型化非線性的、復(fù)雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個(gè)層次組成:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當(dāng)?shù)臄?shù)據(jù)庫(kù)示例來(lái)訓(xùn)練和學(xué)習(xí)、校正預(yù)測(cè)的模型,提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。

    4.數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則

數(shù)據(jù)分析分析技術(shù)范文第5篇

【關(guān)鍵詞】Hadoop 電力行業(yè) 大數(shù)據(jù)分析

隨著互聯(lián)網(wǎng)+時(shí)代的到來(lái),各行業(yè)數(shù)據(jù)的共享與融合越來(lái)越迫切。電力生產(chǎn)關(guān)系民生和經(jīng)濟(jì)發(fā)展,隨著電力信息化的發(fā)展,涉及發(fā)電、輸電、變電、配電、用電等各個(gè)環(huán)節(jié)的數(shù)據(jù)呈爆發(fā)性增長(zhǎng),PB數(shù)量級(jí)的數(shù)據(jù),已無(wú)法通過(guò)傳統(tǒng)的數(shù)據(jù)管理、抽取、分析技術(shù)挖掘數(shù)據(jù)間的多重關(guān)聯(lián)關(guān)系,從而更有效的實(shí)現(xiàn)電力風(fēng)險(xiǎn)預(yù)警,提高生產(chǎn)效率和智能調(diào)度功能。

1 Hadoop平臺(tái)介紹

Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開(kāi)源分布式計(jì)算平臺(tái)。以Hadoop分布式文件系統(tǒng)和MapReduce為核心的Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng),MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開(kāi)發(fā)并行應(yīng)用程序。所以用戶可以利用Hadoop輕松地組織計(jì)算機(jī)資源,從而搭建自己的分布式計(jì)算平臺(tái),并且可以充分利用集群的計(jì)算和存儲(chǔ)能力,完成海量數(shù)據(jù)的處理。

Avro是doug cutting主持的RPC項(xiàng)目,有點(diǎn)類(lèi)似Google的protobuf和Facebook的thrift。是用于數(shù)據(jù)序列化的系統(tǒng)。提供了豐富的數(shù)據(jù)結(jié)構(gòu)類(lèi)型、快速可壓縮的二進(jìn)制數(shù)據(jù)格式、存儲(chǔ)持久性數(shù)據(jù)的文件集、遠(yuǎn)程PRC調(diào)用以及簡(jiǎn)單的動(dòng)態(tài)語(yǔ)言集成功能。

實(shí)現(xiàn)了MapReduce編程框架,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。能夠使編程人員在不理解分布式并行編程概念的情況下也能方便將自己的程序運(yùn)行在分布式系統(tǒng)上。

HDFS分布式文件系統(tǒng),其設(shè)計(jì)目標(biāo)包括:檢測(cè)和快速恢復(fù)硬件故障;數(shù)據(jù)流的訪問(wèn);簡(jiǎn)化一致性模型等。

Zookeeper是Google的Chubby一個(gè)開(kāi)源的實(shí)現(xiàn)。它是一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。

Pig是SQL-like語(yǔ)言,是在MapReduce上構(gòu)建的一種高級(jí)查詢語(yǔ)言,把一些運(yùn)算編譯進(jìn)MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Yahoo網(wǎng)格運(yùn)算部門(mén)開(kāi)發(fā)的又一個(gè)克隆Google的項(xiàng)目Sawzall。

Chukwa是基于Hadoop的大集群監(jiān)控系統(tǒng),是開(kāi)源的數(shù)據(jù)搜集系統(tǒng)。通過(guò)HDFS來(lái)存儲(chǔ)數(shù)據(jù),并依賴(lài)MapReduce來(lái)處理數(shù)據(jù)。

2 數(shù)據(jù)抽取分析模型

目前電力行業(yè)數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)如常規(guī)oracle,MySQL等數(shù)據(jù)庫(kù)類(lèi)型,同時(shí)也存在大量log日志文件,e文件等非結(jié)構(gòu)化數(shù)據(jù),為能全面有效的實(shí)現(xiàn)多業(yè)務(wù),多數(shù)據(jù)綜合建模分析,設(shè)計(jì)如圖2所示,數(shù)據(jù)處理模型。主要由數(shù)據(jù)抽取、格式清洗和DFS分布式文件系統(tǒng)構(gòu)成,同時(shí)為下一步大數(shù)據(jù)建模分析打好基礎(chǔ)。

數(shù)據(jù)抽取模塊主要負(fù)責(zé)從原業(yè)務(wù)系統(tǒng)獲得結(jié)構(gòu)化和非結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)。通過(guò)在數(shù)據(jù)抽取工具中配置前端機(jī)器名稱(chēng)、端口號(hào)、加密用戶名密碼、數(shù)據(jù)表等信息,實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的抽取工作。對(duì)于日志類(lèi)文件由于在原服務(wù)運(yùn)行期間日志文件是持續(xù)寫(xiě)入狀態(tài),因此必須在原系統(tǒng)設(shè)置,系統(tǒng)日志按時(shí)間節(jié)點(diǎn)分割,一般可按具體業(yè)務(wù)運(yùn)行情況和日志產(chǎn)生量和產(chǎn)生大小進(jìn)行設(shè)定,避免因日志文件過(guò)大或網(wǎng)絡(luò)繁忙,在抽取時(shí)對(duì)業(yè)務(wù)造成影響。

格式清洗模塊主要是對(duì)原始數(shù)據(jù)中多種不同配置格式進(jìn)行統(tǒng)一,特別是對(duì)非結(jié)構(gòu)化數(shù)據(jù),需定義每個(gè)字段的含義和位置以及統(tǒng)一分隔符,同時(shí)還會(huì)去掉一些記錄不完整的壞數(shù)據(jù),保證數(shù)據(jù)的格式統(tǒng)一,信息完成。最后導(dǎo)入HDFS文件系統(tǒng)進(jìn)行存儲(chǔ)。

數(shù)據(jù)分析通過(guò)Map/Reduce操作實(shí)現(xiàn),通過(guò)設(shè)計(jì)業(yè)務(wù)分析模型,定位此項(xiàng)數(shù)據(jù)分析所需輸入數(shù)據(jù),并將數(shù)據(jù)數(shù)據(jù)分割成若干獨(dú)立的塊,并根據(jù)Inputformat把Y料讀入成一組(key,value)對(duì),然后通過(guò)mapper count分給不同的mapper進(jìn)行處理。再設(shè)計(jì)模型中,通過(guò)設(shè)置滿足要求的map任務(wù)值,并引入哈希算法,將mapper對(duì)應(yīng)初始的(initialkey,initialvalue)生成中間數(shù)據(jù)集(interkey,intervalue)劃分為多個(gè)任務(wù),將模值相等的任務(wù)丟到統(tǒng)一節(jié)點(diǎn)上計(jì)算,以實(shí)現(xiàn)比較平衡的分類(lèi)效果。

Reducer對(duì)mapper產(chǎn)生的(interkey,intervalue)中間數(shù)據(jù)集,進(jìn)行驅(qū)蟲(chóng)、過(guò)濾等后期處理后,得到結(jié)果。為實(shí)現(xiàn)輸出文件格式支持通過(guò)key來(lái)高效的自由訪問(wèn),并得到有序的數(shù)據(jù)輸出,在reducer中加入排序環(huán)節(jié),將所有的中間數(shù)據(jù)集根據(jù)key來(lái)排序的。這樣每個(gè)小塊都很容易生成一個(gè)序列化的輸出文件。

通過(guò)展示系統(tǒng),實(shí)現(xiàn)各業(yè)務(wù)模型數(shù)據(jù)分析結(jié)果圖形化的展示在監(jiān)控大屏上,同時(shí)桌面用戶還可通過(guò)瀏覽器或客戶端在終端上查詢分析結(jié)果。

3 總結(jié)

通過(guò)hadoop平臺(tái)構(gòu)建電力行業(yè)大數(shù)據(jù)分析模型,可按照業(yè)務(wù)需要進(jìn)行靈活進(jìn)行組合,提高各專(zhuān)業(yè)間的數(shù)據(jù)共享融合,實(shí)現(xiàn)由點(diǎn)狀業(yè)務(wù)分析模式,到貫穿“三集五大”各專(zhuān)業(yè)的網(wǎng)狀業(yè)務(wù)分析模式,可進(jìn)一步提高電網(wǎng)的健壯性、互動(dòng)性和智能化,為社會(huì)經(jīng)濟(jì)穩(wěn)定發(fā)展提供保障。

相關(guān)期刊更多

數(shù)據(jù)

省級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

北京市統(tǒng)計(jì)局

大數(shù)據(jù)

統(tǒng)計(jì)源期刊 審核時(shí)間1個(gè)月內(nèi)

工業(yè)和信息化部

數(shù)據(jù)法學(xué)

部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

中國(guó)人民公安大學(xué)法學(xué)院