婷婷超碰在线在线看a片网站|中国黄色电影一级片现场直播|欧美色欧美另类少妇|日韩精品性爱亚洲一级性爱|五月天婷婷乱轮网站|久久嫩草91婷婷操在线|日日影院永久免费高清版|一级日韩,一级鸥美A级|日韩AV无码一区小说|精品一级黄色毛片

首頁 > 文章中心 > 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)挖掘范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

數(shù)據(jù)挖掘范文第1篇

隨著數(shù)據(jù)庫技術的不斷發(fā)展,數(shù)據(jù)庫和數(shù)據(jù)倉庫已經(jīng)被廣泛地應用于企業(yè)管理、產(chǎn)品銷售、科學計算和信息服務等領域,數(shù)據(jù)量的不斷增長對數(shù)據(jù)的存儲、管理和分析提出了更高的要求,急需新一代的技術,能夠智能化的從大量的數(shù)據(jù)中提取出有用的信息和知識,于是數(shù)據(jù)挖掘技術應運而生,且在各行業(yè)得到了廣泛的應用。如何從海量的數(shù)據(jù)中找到內(nèi)在的規(guī)律,如何更快更方便地傳遞、交流、獲取有用的信息,挖掘這些激增數(shù)據(jù)背后隱藏的重要信息并及時進行信息的重組已成為當前我們所探究的熱點。

一、數(shù)據(jù)挖掘概述及分類

數(shù)據(jù)挖掘是近年來隨著數(shù)據(jù)庫技術和人工智能技術的發(fā)展而出現(xiàn)的一種多學科交叉的全新信息技術,是指從海量的數(shù)據(jù)中出潛在的、有價值的知識(模型或規(guī)則)的過程,反復使用多種數(shù)據(jù)挖掘算法從觀測數(shù)據(jù)中確定模式或合理模型。也就是根據(jù)預定義的目標,對大量的數(shù)據(jù)進行探索和分析,揭示其中隱含的規(guī)律,并進一步將其模型化的先進有效的技術過程。隨著計算機網(wǎng)絡的發(fā)展和普遍使用,數(shù)據(jù)挖掘成為迫切需要探究的重要課題。

數(shù)據(jù)挖掘涉及多個學科方向,主要包括摘要:數(shù)據(jù)庫、統(tǒng)計學和人工智能等。數(shù)據(jù)挖掘可按數(shù)據(jù)庫類型、挖掘對象、挖掘任務、挖掘方法和技術以及應用等幾方面進行分類。按數(shù)據(jù)庫類型分類摘要:關系數(shù)據(jù)挖掘、模糊數(shù)據(jù)挖掘、歷史數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘等多種不同數(shù)據(jù)庫的數(shù)據(jù)挖掘類型。按數(shù)據(jù)挖掘對象分類摘要:文本數(shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘。按數(shù)據(jù)挖掘的任務有摘要:關聯(lián)分析、時序模式、聚類、分類、偏差檢測、猜測等。按數(shù)據(jù)挖掘方法和技術分類摘要:歸納學習類、仿生物技術類、公式發(fā)現(xiàn)類、統(tǒng)計分析類、模糊數(shù)學類、可視化技術類。

二、數(shù)據(jù)挖掘的基本過程

(1)定義新問題。對目標有一個可行、清楚和明確的定義,同時還包含對一個結果進行衡量的標準。(2)建立數(shù)據(jù)挖掘庫。它主要是指收集數(shù)據(jù)、維護數(shù)據(jù)等工作。(3)分析數(shù)據(jù)。找到對新問題解決影響大的數(shù)據(jù)字段集和決定是否需要定義導出字段。(4)預備建摸數(shù)據(jù)。根據(jù)新問題的定義,對數(shù)據(jù)庫中的字段變量、記錄進行篩選,并根據(jù)現(xiàn)有的變量進行轉換,生成新的變量和字段。它主要是指為建立模型預備部分數(shù)據(jù)的過程。(5)建立模型。選擇一定的挖掘算法來處理數(shù)據(jù),它需考察不同的模型用以判定和選擇解決新問題最有效、精確度較好的一種數(shù)據(jù)挖掘模式。(6)模型的評價和解釋。模型建立后,必須有一個對它的結果進行評價、對它的價值進行解釋的過程。(7)實施。模型建立并驗證之后通常有兩種使用方法。一種是提供給分析人員作參考和分析這個模型之后的行動方案及建議。另一種是在應用了模型之后,還需不斷地監(jiān)控其效果,因為事物在不斷地發(fā)展變化,有可能一段時間后,模型就不再起功能川。在以上數(shù)據(jù)挖掘的基本過程中,其中數(shù)據(jù)預備、數(shù)據(jù)選擇、預處理、數(shù)據(jù)縮減的階段主要以完成數(shù)據(jù)倉庫為主;目標確定、算法確定、數(shù)據(jù)挖掘、模式識別和知識評價這幾個階段,主要以挖掘有用的知識為主,為知識發(fā)現(xiàn)做預備。

三、數(shù)據(jù)挖據(jù)的應用

數(shù)據(jù)挖掘技術源于商業(yè)的直接需求,因此它在各種商業(yè)領域都存在廣泛的使用價值?,F(xiàn)在已經(jīng)應用數(shù)據(jù)挖掘技術的領域都是信息量大、環(huán)境復雜、需要知識幫助進行管理和決策的領域。下面介紹一些目前比較活躍的應用方向摘要:

(一)在金融數(shù)據(jù)分析中的應用。多數(shù)銀行和金融機構都提供了豐富多樣的儲蓄,信用,投資,保險等服務。他們產(chǎn)生的金融數(shù)據(jù)通常比較完整、可靠,這對系統(tǒng)化的數(shù)據(jù)分析和數(shù)據(jù)挖掘相當有利。在具體的應用中,采用多維數(shù)據(jù)分析來分析這些數(shù)據(jù)的一般特性,觀察金融市場的變化趨向;通過特征選擇和屬性相關性計算,識別關鍵因素,進行貸款償付猜測和客戶信用分析;利用分類和聚集的方法對用戶群體進行識別和目標市場分析;使用數(shù)據(jù)可視化、鏈接分析、分類、聚類分析、孤立點分析、序列模式分析等工具偵破洗黑錢和其他金融犯罪行為。

(二)在電力業(yè)的應用。在電力行業(yè)中,數(shù)據(jù)挖掘技術主要用于指導設備更新、業(yè)績評估、指導電力企業(yè)的建設規(guī)劃、指導電力的生產(chǎn)和購買、指導電力的調(diào)度等。數(shù)據(jù)挖掘在電力企業(yè)的其它方面也有巨大的用處,比如說指導項目管理、平安管理、資源管理、投資組合管理、活動分析、銷售猜測、收入猜測、需求猜測、理賠分析等。而且當使用數(shù)據(jù)挖掘系統(tǒng)時,用戶會對模型進行調(diào)優(yōu)和定制。這將會逐步積累符合企業(yè)自身需要的模型庫,成為企業(yè)知識庫的重要組成部分。

(三)在零售業(yè)中的應用。零售業(yè)是數(shù)據(jù)挖掘的主要應用領域,這是因為零售業(yè)積累了大量的銷售數(shù)據(jù),如顧客購買史記錄、貨物進出、消費和服務記錄以及流行的電子商務等等都為數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)資源。零售數(shù)據(jù)挖掘有助于劃分顧客群體,使用交互式詢問技術、分類技術和猜測技術,更精確地挑選潛在的顧客;識別顧客購買行為,發(fā)現(xiàn)顧客購買模式和趨向,進行關聯(lián)分析,以便更好地進行貨架擺設;改進服務質(zhì)量,獲得更好的顧客忠誠度和滿足程度;提高貨品的銷量比率,設計更好的貨品運輸和分銷策略,減少商業(yè)成本;尋找描述性的模式,以便更好地進行市場分析等等。

(四)在醫(yī)學上的應用。近年來,生物醫(yī)學探究有了迅猛地發(fā)展,從新藥的開發(fā)到癌癥治療的突破,到通過大規(guī)模序列模式和基因功能的發(fā)現(xiàn),進行人類基因的識別和探究。在人類基因探究領域具有挑戰(zhàn)性的新問題是從中找出導致各種疾病的特定基因序列模式。由于數(shù)據(jù)挖掘中已經(jīng)有許多有意義的序列模式分析和相似檢索技術,因此數(shù)據(jù)挖掘成為DNA分析中的強有力工具。利用數(shù)據(jù)挖掘技術在DNA數(shù)據(jù)的分析探究中可以進行DNA序列間的相似搜索和比較,對同時出現(xiàn)的基因序列的相關分析,遺傳探究中的路徑分析等。近期DNA分析的探究成果已經(jīng)促成了對許多疾病和殘疾基因成因的發(fā)現(xiàn),以及對疾病診斷、預防和治療的新藥物、新方法的發(fā)現(xiàn)。

(五)在高校和科研單位以及其他領域的應用。主要是用于海量信息數(shù)據(jù)的抽取,提供給教研和科研人員有價值的數(shù)據(jù)。比如在數(shù)字圖書館方面可以引入數(shù)據(jù)挖掘技術。同時還可以應用的電子商務等等眾多領域。

數(shù)據(jù)挖掘范文第2篇

關鍵詞:數(shù)據(jù)挖掘 大數(shù)據(jù) 市場營銷 企業(yè)決策

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2014)02-0080-02

數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是目前人工智能和數(shù)據(jù)庫領域研究的熱點問題。數(shù)據(jù)挖掘己廣泛地應用到社會的各個領域和行業(yè),如商業(yè)領域中的客戶關系、產(chǎn)品生產(chǎn)、市場營銷等;金融領域中的股票交易市場、投資評估等;天文學領域的氣象預報、氣象災害預測等;教育領域的高校學生管理、高校畢業(yè)生就業(yè)分析、高校教學質(zhì)量的評估等??梢哉f,數(shù)據(jù)挖掘實是處在知識創(chuàng)造過程中最核心的位置,因此做好數(shù)據(jù)挖掘工作具有十分重要的意義。

1 數(shù)據(jù)挖掘的定義和本質(zhì)

對于數(shù)據(jù)挖掘一般有兩種定義,從廣義上講,數(shù)據(jù)挖掘,又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程,就是從大型數(shù)據(jù)集中挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。原始數(shù)據(jù)可以是結構化的,如關系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結構化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡上的異構型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識可以被用于信息管理,查詢優(yōu)化,決策支持和過程控制等,還可以用于數(shù)據(jù)自身的維護。從狹義上講,數(shù)據(jù)挖掘則是指從特定形式的數(shù)據(jù)集中提煉知識的過程。

數(shù)據(jù)挖掘的本質(zhì)是很偶然的發(fā)現(xiàn)非預期但很有價值的信息。這說明數(shù)據(jù)挖掘過程本質(zhì)上是實驗性的。數(shù)據(jù)挖掘的一個特定屬性就是要處理的是一個大數(shù)據(jù)集。這就意味著,由于可行性的原因,我們常常得到的只是一個樣本,但是需要描述樣本取自的那個大數(shù)據(jù)集。數(shù)據(jù)挖掘所得到的信息應具有先前未知、有效和實用三個特征。

2 數(shù)據(jù)挖掘的發(fā)展背景

在這個信息爆炸的時代,如何從信息的大海中發(fā)現(xiàn)及時有用的知識,提高信息利用率呢?要想使數(shù)據(jù)真正成為一個公司的資源,只有充分利用它為公司自身的業(yè)務決策和戰(zhàn)略發(fā)展服務才行,否則大量的數(shù)據(jù)可能成為垃圾,甚至成為包袱。因此,面對人們被數(shù)據(jù)淹沒卻饑餓于知識的挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術應運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。

數(shù)據(jù)挖掘技術是人們長期對數(shù)據(jù)庫技術進行研究和開發(fā)的結果。激發(fā)數(shù)據(jù)挖掘的開發(fā)、應用和研究有如下四個主要的技術理由:(1)超大規(guī)模數(shù)據(jù)庫的出現(xiàn),例如商業(yè)數(shù)據(jù)倉庫和計算機自動收集的數(shù)據(jù)記錄;(2)先進的計算機技術,例如更快和更強大的計算能力和并行體系結構; (3)對巨大量數(shù)據(jù)的快速訪問;(4)對這些數(shù)據(jù)應用精深的統(tǒng)計方法計算的能力。數(shù)據(jù)挖掘的核心模塊技術歷經(jīng)了數(shù)十年的發(fā)展,其中包括數(shù)理統(tǒng)計、人工智能、機器學習。今天,這些成熟的技術,加上高性能的關系數(shù)據(jù)庫引擎以及廣泛的數(shù)據(jù)集成,讓數(shù)據(jù)挖掘技術在當前的數(shù)據(jù)倉庫環(huán)境中進入了實用的階段。

國內(nèi)對數(shù)據(jù)挖掘的研究晚于國外。國家通過自然科學基金對數(shù)據(jù)挖掘的研究進行支持,很多科研單位和院校都在這個領域獲得了豐碩成果,這些單位包括中科院、清華大學、中國科大、復旦大學等,他們的成果為我國在此領域的發(fā)展起到了重要作用,得到了學術界的高度重視。

3 數(shù)據(jù)挖掘常用的方法

利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類分析、回歸分析、聚類分析、預警分析、Web頁挖掘等,它們分別從不同的角度對數(shù)據(jù)進行挖掘。

(1)分類分析??蛻艏毞中枰M行客戶特征分析,即用數(shù)據(jù)來描述或給出客戶或潛在客戶特征的分析過程。它可以應用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機會。

(2)回歸分析。如何使用數(shù)據(jù)挖掘來對不同的旨在保留客戶的活動中進行建模將對整個客戶保持工作起著重要的作用,這也就是流失模型價值所在。流失模型能預測賬號在被激活后減少或停止使用一種產(chǎn)品或服務的行為。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。

(3)聚類分析。通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,更好地了解自己的客戶,向客戶提供更合適的服務。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。

(4)預警分析。數(shù)據(jù)挖掘方法可以為風險分析建立分類定位模型。在企業(yè)危機管理及其預警中,管理者更感興趣的是那些意外規(guī)則。風險分析是提品或服務時存在潛在損失的行業(yè)所特有的。常見的風險類型出現(xiàn)在銀行業(yè)和保險業(yè),銀行在放貸時存在金融風險。利用風險分析可以預測一個對象如期還貸或不還貸的可能性。一種貸款如抵押貸款或汽車貸款是安全貸款,另一種貸款如信用卡貸款為不安全貸款。

(5)Web頁挖掘。Web因其易于導航、方便鏈接,融圖形、音頻、視頻信息于一體的優(yōu)越特性,迅速流行于全球,所載信息量巨大。Web頁挖掘是利用數(shù)據(jù)挖掘技術從萬維網(wǎng)的海量信息和數(shù)據(jù)中提取各種有用模式和信息,其中涉及到Web技術、數(shù)據(jù)挖掘、計算機語言學、信息學等多個領域的專業(yè)知識。對于企業(yè)而言,可以通過Web頁挖掘、收集與企業(yè)生存相關的社會環(huán)境信息、市場信息、競爭對手信息、客戶信息等,及時對外部環(huán)境信息和內(nèi)部經(jīng)營信息作出反饋和決策,未雨綢繆,以最快的速度解決企業(yè)面對的各種危機和潛在問題。

4 數(shù)據(jù)挖掘的社會需求和應用

人類早已步入信息社會,信息的重要性毋庸置疑。如何能在信息的海洋中迅速提取那些于我有價值的信息是生存的必要本領和競爭的必要手段,這就需要進行數(shù)據(jù)挖掘。具體而言,數(shù)據(jù)挖掘的社會需求和應用主要有表現(xiàn)在四個方面,即輔助研究,改進生產(chǎn)流程,優(yōu)化市場營銷,提高競爭優(yōu)勢。

(1)輔助研究。數(shù)據(jù)挖掘的輔助研究功能主要表現(xiàn)在醫(yī)藥和生物研究領域。數(shù)據(jù)挖掘技術可以協(xié)助研究人員快速分析巨量的醫(yī)學數(shù)據(jù)和醫(yī)生診斷經(jīng)驗,發(fā)現(xiàn)隱藏在海量數(shù)據(jù)背后的新的、具有學術價值的醫(yī)學信息,為新藥的發(fā)現(xiàn)提供一種新的思路和方法,幫助科研人員在大的數(shù)據(jù)庫中發(fā)現(xiàn)隱含的知識,更好、更快、更有效地決策,加快藥物研發(fā)速度,提高藥物研發(fā)水平。此外,數(shù)據(jù)挖掘理論中的序列模式分析和相似檢索技術等,已經(jīng)被認為是DNA分析的有效工具,研究者們正在研究如何利用該技術從已經(jīng)測得的基因數(shù)據(jù)庫中找出各種疾病特定基因序列模式。數(shù)據(jù)挖掘技術還可以應用到醫(yī)學圖像分析中,借助于這一技術,圖像特征能夠實現(xiàn)自動提取和模式識別。更加令人欣喜的是,數(shù)據(jù)挖掘技術在醫(yī)療行業(yè)的應用,不僅可以協(xié)助醫(yī)生更加準確地對病人進行診斷,還能預測醫(yī)療試驗、外科手術和藥物治療的效果,對于緩和醫(yī)患關系,節(jié)省治療成本等都能起到積極作用。

(2)改進生產(chǎn)流程。數(shù)據(jù)挖掘改進生產(chǎn)流程的功能主要體現(xiàn)在工業(yè)領域。目前,數(shù)據(jù)挖掘已經(jīng)成功地應用于從晶片制造到咖啡烘焙等一般的生產(chǎn)流程,用領域非常廣泛。數(shù)據(jù)挖掘在改進生產(chǎn)流程中的應用概括地講就是提取出影響生產(chǎn)進度的因素,避免生產(chǎn)的非正常中斷,優(yōu)化成產(chǎn),從而節(jié)約成本。首先是提取數(shù)據(jù),這些數(shù)據(jù)既包括能產(chǎn)生正面結果的數(shù)據(jù),也包括產(chǎn)生負面結果的數(shù)據(jù)。其次是選擇決策樹算法依據(jù)數(shù)據(jù)判斷出最重要的變量,再經(jīng)過審定保留那些具有預測能力的變量。最后是進行建模與評估,形成生產(chǎn)規(guī)則。需要注意的是,由于不同工廠間的具體情況不同,這些規(guī)則并不能從一家工廠直接復制到另外一家工廠,因此數(shù)據(jù)挖掘工作不是一勞永逸的,應在成功的基礎上不斷進行研究。

(3)優(yōu)化市場營銷。由于信息的爆炸式增長,商業(yè)領域累積的數(shù)據(jù)庫越來越大,不僅占用空間,且無法直接增加價值,由此人們認識到大量數(shù)據(jù)并非就是大量的信息,數(shù)據(jù)分析與萃取勢在必行。因此,數(shù)據(jù)挖掘技術從一開始就是為應用而產(chǎn)生的,且迅速應用到了市場營銷領域。世界上許多具有創(chuàng)新性的公司都采用數(shù)據(jù)挖掘的方式改進產(chǎn)品的推廣模式,改善營銷、銷售、顧客服務營運上的不足,尋找最有價值的客戶,以最小的成本獲取最大的利益。例如銀行可以通過分析客戶的銀行賬戶余額、客戶已擁有的銀行產(chǎn)品以及所處地點和信貸風險等標準來評價記錄檔案,這些評價可用于確定客戶購買某一具體產(chǎn)品的可能性,使得管理人員不必一一分析基礎數(shù)據(jù),大大提高了工作效率。對于零售商而言,可以利用數(shù)據(jù)挖掘技術收集并分析上百萬個交易數(shù)據(jù),為各分店進行每周和每日的銷售預測,還可協(xié)助制訂季度銷售預測、用人計劃、存貨管理、年度預算等,甚至還能幫助為新的分店選址。以美國擁有1100多家分店、年銷售額近110億美元的Staples連鎖零售商店為例,它就是運用數(shù)據(jù)挖掘方法成功對各家分店進行管理,它采用的數(shù)據(jù)包括歷史銷售數(shù)據(jù)、客戶(包括商戶和家庭)的統(tǒng)計數(shù)據(jù)、分店所處的地段特征及該地段的競爭水平等一系列海量數(shù)據(jù)??ǚ蚴称饭疽彩峭ㄟ^對擁有3000萬客戶資料的數(shù)據(jù)庫進行深入挖掘,得以了解特定客戶的興趣和口味,并以此為基礎向他們發(fā)送特定產(chǎn)品的優(yōu)惠券,并為他們推薦符合客戶口味和健康狀況的卡夫產(chǎn)品食譜。

數(shù)據(jù)挖掘在市場營銷中的應用是基于“消費者過去的行為是今后消費傾向的最好說明”這一基本假定,通過搜集和分析消費者消費行為的大量信息,以確定消費群體和個體的消費習慣、消費熱點、消費層次和潛在的消費需求等,以此為基礎,有針對性地進行特定內(nèi)容的定向營銷,不僅節(jié)約了營銷成本,還大大提高了營銷效果,為企業(yè)帶來更多利潤。

(4)提升競爭優(yōu)勢。在市場經(jīng)濟比較發(fā)達的國家和地區(qū),許多公司都開始在原有信息系統(tǒng)的基礎上通過數(shù)據(jù)挖掘對業(yè)務信息進行深加工,以構筑自己的競爭優(yōu)勢。數(shù)據(jù)挖掘在提升企業(yè)競爭優(yōu)勢上主要包括兩個方面,一是提升企業(yè)自身實力,二是規(guī)避外部風險,具體來說主要包括分析企業(yè)內(nèi)部經(jīng)營信息,搜集外部環(huán)境信息,創(chuàng)新優(yōu)質(zhì)產(chǎn)品和服務,改善和維護客戶關系,進行企業(yè)供應鏈管理,識別風險和欺詐,控制和化解危機等。

5 數(shù)據(jù)挖掘需要注意的問題

(1)對數(shù)據(jù)的要求。由于大多數(shù)運營商面臨的數(shù)據(jù)在質(zhì)量、完整性和一致性方面存在很多問題,因此在利用這些數(shù)據(jù)進行數(shù)據(jù)挖掘之前,必須先對其進行抽取、凈化和處理。

(2)對人員素質(zhì)的要求。統(tǒng)計數(shù)據(jù)挖掘分析系統(tǒng)必須與實際緊密相聯(lián),在數(shù)據(jù)挖掘的多個環(huán)節(jié)中,都要求使用和分析人員不僅僅具備數(shù)據(jù)挖掘的相關知識,還必須有對企業(yè)經(jīng)營管理流程和行業(yè)背景的深刻理解。

(3)數(shù)據(jù)挖掘的有效性。數(shù)據(jù)挖掘存在較長的應用周期,數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識和規(guī)則必須讓決策者理解并采納,才能將知識轉化為生產(chǎn)力,并通過實踐不斷檢驗和完善數(shù)據(jù)挖掘所產(chǎn)生的模型和規(guī)則,以使模型更具實用價值。

(4)數(shù)據(jù)庫類型的多樣性。一些數(shù)據(jù)庫可能包含復雜的數(shù)據(jù)對象、超文本和多媒體數(shù)據(jù)、空間數(shù)據(jù)、時間數(shù)據(jù)或事務數(shù)據(jù)。由于數(shù)據(jù)類型的多樣性和數(shù)據(jù)挖掘的目標不同,指望一個系統(tǒng)挖掘所有類型的數(shù)據(jù)是不現(xiàn)實的。為挖掘特定類型的數(shù)據(jù),應當構造特定的數(shù)據(jù)挖掘系統(tǒng)。同樣,對于不同類型的數(shù)據(jù),應當有不同的數(shù)據(jù)挖掘系統(tǒng)。

(5)數(shù)據(jù)挖掘的局限性。雖然數(shù)據(jù)挖掘工具使用戶不必再掌握高深的統(tǒng)計分析技術,但用戶仍然需要知道所選用的數(shù)據(jù)挖掘工具是如何工作的,它所采用的算法的原理是什么。選用的技術和優(yōu)化方法會對模型的準確度和生成速度產(chǎn)生很大影響。數(shù)據(jù)挖掘永遠不會替代有經(jīng)驗的商業(yè)分析師或者管理人員所起的作用,它只是提供一個強大的工具。每個成熟的、了解市場的公司都已經(jīng)具有一些重要的、能產(chǎn)生高回報的模型,這些模型可能是管理人員花了很長時間,作了很多調(diào)查,甚至是經(jīng)過很多失誤之后得來的。數(shù)據(jù)挖掘工具要做的就是使這些模型得到的更容易,更方便,而且有根據(jù)。

6 結語

總之,數(shù)據(jù)挖掘作為一個新興的多學科交叉應用領域,正在各行各業(yè)的決策支持活動扮演著越來越重要的角色。只有從數(shù)據(jù)中有效地提取信息,從信息中及時地發(fā)現(xiàn)知識,才能為人類的思維決策和戰(zhàn)略發(fā)展服務。

參考文獻

[1]陳文偉,等.數(shù)據(jù)挖掘技術[M].北京:北京工業(yè)大學出版社,2002.

[2]朱明,數(shù)據(jù)挖掘.合肥:中國科技大學出版社2002.

數(shù)據(jù)挖掘范文第3篇

數(shù)據(jù)挖掘技術是當前數(shù)據(jù)庫和人工智能領域研究的熱點課題, 本文首先對數(shù)據(jù)挖掘技術的國內(nèi)外總體研究情況進行概略介紹,包括數(shù)據(jù)挖掘技術產(chǎn)生背景、應用領域、分類;然后詳細闡述了數(shù)據(jù)挖掘的各種技術方法,并對數(shù)據(jù)挖掘的應用領域做了相關介紹。

【關鍵詞】數(shù)據(jù)挖掘 決策支持 關聯(lián)規(guī)則 模式

1 前言

數(shù)據(jù)挖掘含義是指從大量、模糊、隨機的實際應用數(shù)據(jù)中,提取隱藏在其內(nèi)部中、人

們原先不知曉的、卻潛在有用的信息和知識的過程。我們把提取出的信息和知識表示為規(guī)律、概念、模式、規(guī)則等形式。數(shù)據(jù)挖掘被認為是一門跨多知識領域和學科的新興課題,它為我們使用數(shù)據(jù)從簡單查詢將變?yōu)樵跀?shù)據(jù)里挖掘與發(fā)現(xiàn)知識從而產(chǎn)生對決策行為提供支持。為了能夠滿足人們從大量數(shù)據(jù)里發(fā)現(xiàn)知識的需求,來自不同領域的專家學者,都致力于研究這個熱點課題――數(shù)據(jù)挖掘,不斷研究和產(chǎn)生出新的研究成果。自從加拿大蒙特利爾在1995年召開了首屆KDD&Data Mining國際學術會議,此后每年舉辦一次。通過數(shù)年努力, 數(shù)據(jù)挖掘技術研究取得了豐碩的成果,不少數(shù)據(jù)挖掘的軟件產(chǎn)品,已在歐洲、北美等國家得到廣泛的應用。目前,應用廣泛的數(shù)據(jù)挖掘系統(tǒng)有:IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、SAS公司的Enterprise Miner、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、還有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。在我國,數(shù)據(jù)挖掘技術的研究也取得了相當客觀的成果。

2 數(shù)據(jù)挖掘的技術方法

通常情況下,我們把數(shù)據(jù)挖掘方法分為兩大方面,一是統(tǒng)計類型,有概率分析、相

關性、聚類分析和判別分析等常用技術;二是人工智能領域中的機器學習型,通過訓練和學量的樣品集獲得需要的模式或參數(shù)。

2.1 遺傳算法

遺傳算法是基于生物進化過程組合優(yōu)化方法,它是和計算機科學與生物學結合的產(chǎn)物,由美國密西根大學教授D.J.Holland和他的同事們在1975年首次提出。人們總結的遺傳算法基本思想分為兩點:第一,將物種進化理論用于求解問題,物種進化又分為變異和遺傳兩個方面;第二,只有最能適應環(huán)境的物種才能生存下來,所以需要反復求解后才可以獲得最佳解。遺傳算法按照規(guī)則產(chǎn)生經(jīng)過基因編碼最初群體,然后從代表問題可能潛在答案的初始群體出發(fā),選擇適應度強的個體進行交換和變異,目的是發(fā)現(xiàn)適應度更佳的個體,這樣一代代地演化,得到最優(yōu)個體,解碼,該最佳個體編碼就是對應的問題最佳解或近似最佳解。在遺傳算法的使用上,它的優(yōu)點是對問題要求信息較少,比較高效性和靈活性。在數(shù)據(jù)挖掘中,經(jīng)常用于估測其它算法的適合度,同時遺傳算法擅長于數(shù)據(jù)聚類,通過和空間上類比和時間上類比,能夠使大量復雜數(shù)據(jù)系統(tǒng)化、條理化,從而找出他們之間的內(nèi)在聯(lián)系,獲得有用概念和模式。

2.2 關聯(lián)分析

在大型數(shù)據(jù)庫中,關聯(lián)規(guī)則挖掘是最常見的數(shù)據(jù)挖掘任務之一。關聯(lián)規(guī)則挖掘就是從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間的相關聯(lián)系。最著名的關聯(lián)規(guī)則挖掘算法是由Agrawal等于1994年提出的 Apriori算法,其基本思想是:第一找出所有頻繁1-項集集合Ll,使用L1查找頻繁2-項集集合L2,繼而用L2用于L3,反復迭代,一直到不能找到頻繁k-項集。并利用事先設定好的最小支持度閾值進行篩選,將小于最小支持度的候選項集刪除,再進行下一次的合并生成該層的頻繁項集。經(jīng)過篩選可減少候選項集數(shù),從而加快關聯(lián)規(guī)則挖掘的速度。

2.3 決策樹

決策樹算法之所以在數(shù)據(jù)分析挖掘應用中如此流行,主要原因在于決策樹的構造不需要任何領域的知識,很適合探索式的知識發(fā)掘,并且可以處理高維度的數(shù)據(jù)。在眾多的數(shù)據(jù)挖掘、統(tǒng)計分析算法中,決策樹最大的優(yōu)點在于它所產(chǎn)生的一系列從樹根到樹枝(或樹葉)的規(guī)則,可以很容易地被分析師和業(yè)務人員理解,而且這些典型的規(guī)則甚至不用整理(或稍加整理),就是現(xiàn)成的可以應用的業(yè)務優(yōu)化策略和業(yè)務優(yōu)化路徑。另外,決策樹技術對數(shù)據(jù)的分布甚至缺失非常寬容,不容易受到極值的影響。

國際上最有影響的決策樹方法是由Quinlan 研制的ID3方法。ID3(Iterative Dichotomiser)算法其最大的特點在于自變量的挑選標準是:基于信息增益的度量選擇具有最高信息增益的屬性作為結點的分裂(分割)屬性,其結果就是對分割后的結點進行分類所需的信息量最小,這也是一種劃分純度的思想。

決策樹技術在數(shù)據(jù)化運營中的主要用途體現(xiàn)在:作為分類、預測問題的典型支持技術,它在用戶劃分、行為預測、規(guī)則梳理等方面具有廣泛的應用前景,決策樹甚至可以作為其他建模技術前期進行變量篩選的一種方法,即通過決策樹的分割來篩選有效地輸入自變量。

2.4 粗糙集方法

粗糙集理論定位為一種刻劃不確定性和不完整性的數(shù)學工具,可以有效地分析和處理不一致、不精確、不完整等信息,以從中發(fā)現(xiàn)隱藏的不為所知的知識,揭示潛在的規(guī)律。該理論是由波蘭學者Z.Pawlak教授在1982年提出的,從1992年至今,每年召開以RS為主題的國際會議,推動了RS理論的拓展和應用。

粗糙集是處理模糊數(shù)據(jù)的有力工具,而要達到這樣的目的需要有兩個重要的步驟來進行處理―屬性約簡和值約簡,屬性約簡是對粗糙集合(那些不能區(qū)分的集合)進行縱向的簡化,把不必要的屬性去掉,即去掉這些屬性也不會影響對象的區(qū)分能力,這樣便于以后進一步的簡約處理

由于粗糙集理論創(chuàng)建的目的和研究的出發(fā)點就是直接對數(shù)據(jù)進行分析和推理,從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律,因此是一種天然的數(shù)據(jù)挖掘或者知識發(fā)現(xiàn)手段,與基于證據(jù)理論的數(shù)據(jù)挖掘方法、基于模糊理論的數(shù)據(jù)挖掘方法、基于概率論的數(shù)據(jù)挖掘方法等其他處理不確定性問題理論的方法相比較,最顯著的區(qū)別是它不需要提供問題所需處理的數(shù)據(jù)集合之外的任何先驗知識,而且與處理其他不確定性問題的理論有很強的互補性。

2.5 神經(jīng)網(wǎng)絡

人工神經(jīng)網(wǎng)絡(Artificial Neural Networks)是指能夠模仿人腦神經(jīng)元聯(lián)接結構特征并且進行分布式并行信息處理的數(shù)學模型。根據(jù)人腦的神經(jīng)元的原理所產(chǎn)生的人工神經(jīng)網(wǎng)絡能夠通過不斷修正其內(nèi)部的節(jié)點間相互連接的關系達到處理信息的目的。BP(Back Propagation)網(wǎng)絡,也稱為誤差反向傳播算法,是目前使用較多也比較成熟的神經(jīng)網(wǎng)絡算法, 1985 年Rumelhart 等人提出,它的實質(zhì)是通過誤差反向傳播算法訓練數(shù)據(jù)的多層前饋神經(jīng)網(wǎng)絡,是目前應用最為廣泛的神經(jīng)網(wǎng)絡模型。BP 神經(jīng)網(wǎng)絡能夠學習和存儲大量輸入-輸出模式映射關系,而且還并不需要預先揭示表現(xiàn)此種映射關系數(shù)學模型。它采用的學習規(guī)則是最速下降法,主要利用反向傳播不斷修訂網(wǎng)絡的權值和閾值,達到建立的神經(jīng)網(wǎng)絡誤差的平方和最小。在數(shù)據(jù)挖掘中,神經(jīng)網(wǎng)絡主要用于獲取分類模式。BP 神經(jīng)網(wǎng)絡能夠用來聚類、分類和預測等,通常只需要一定歷史數(shù)據(jù),即把訓練樣本作設為輸入,便能夠對訓練樣本訓練,通過學習與存儲該數(shù)據(jù)樣本中隱含的知識信息后,能夠為后面的數(shù)據(jù)分析提供必要有用的知識。但是神經(jīng)網(wǎng)絡分類方法獲得的模式常常隱藏在網(wǎng)絡結構中,不能夠顯示地表達成為一定的規(guī)則,所以不容易被人們理解和解釋;而且還需要多次掃描訓練數(shù)據(jù),網(wǎng)絡需要的訓練時間較長。所以與其他數(shù)據(jù)挖掘方法相比較,神經(jīng)網(wǎng)絡用于數(shù)據(jù)挖掘,要解決好兩個關鍵點:降低不必要的訓練時間,增強挖掘結果的可理解性。

2.6 模糊技術

模糊數(shù)據(jù)挖掘技術是通過利用原有數(shù)據(jù)挖掘技術同時,與模糊理論相結合,以期從大量數(shù)據(jù)中發(fā)現(xiàn)更為廣泛的內(nèi)容,其挖掘結果將會使用戶更容易理解。由于現(xiàn)實生活中,數(shù)據(jù)之間的關系往往表現(xiàn)為模糊性,因此將模糊理論與數(shù)據(jù)挖掘技術結合從海量的、不完全的、隨機的、含噪聲的模糊數(shù)據(jù)中提取潛在的、未知即通過模糊集合理論對問題模糊評判、模糊決策、模糊模式識別和模糊聚類分析。因為模糊性是客觀存在,而且系的復雜性越高,模糊性就越強,通常模糊集合理論是用隸屬度來描述模糊事物,所以它為數(shù)據(jù)挖掘提供了概念和知識的表達、定性定量的轉換、概念綜合和分解方法。

2.7 可視化技術

可視化技術是指采用計算機圖形學和圖像處理技術,把數(shù)據(jù)轉換成圖形或圖像并且在屏幕上顯示出來,從而進行交互處理技術。它將信息的模式、數(shù)據(jù)關聯(lián)和趨勢展示給決策者,決策者能夠通過可視化的技術來交互分析數(shù)據(jù)之間的關系??梢暬夹g實現(xiàn)過程由四個步驟組成:數(shù)據(jù)預處理、映射、繪制和顯示。數(shù)據(jù)預處理階段,針對各不相同的可視化方法和內(nèi)容,要求對最初數(shù)據(jù)進行變換處理,設置數(shù)據(jù)格式和標準,并且要數(shù)據(jù)壓縮和解壓縮;在映射階段,針對不同類型的應用數(shù)據(jù),使用不同的映射技術把數(shù)值數(shù)據(jù)轉換成幾何數(shù)據(jù);在繪制階段將幾何數(shù)據(jù)繪制成目標圖像;在顯示階段,將圖像數(shù)據(jù)按用戶要求進行輸出。在整個過程中,映射功能完成數(shù)據(jù)的建模功能,是核心。模型可視化的具體方法則與數(shù)據(jù)挖掘采用算法相關聯(lián),如,決策樹算法用樹形表示;過程可視化可以用數(shù)據(jù)流圖來描述知識發(fā)現(xiàn)過程。

3 數(shù)據(jù)挖掘應用

數(shù)據(jù)挖掘技術是面向應用的。數(shù)據(jù)挖掘的研究有利地促進了數(shù)據(jù)挖掘技術應用的發(fā)展與推廣。隨著研究的深入,數(shù)據(jù)挖掘技術的應用越來越廣泛。主要集中在以下幾方面:

3.1 金融業(yè)

數(shù)據(jù)挖掘技術用于銀行行業(yè)的存/貸款趨勢預測,優(yōu)化存/貸款策略和投資組合。

3.2 生物信息

在基因工程中的染色體、基因序列的識別分析、基因表達路徑分析、基因表達相似性分析、以及制藥、生物信息和科學研究等。

3.3 零售業(yè)

數(shù)據(jù)挖掘技術被用來進行分析購物籃來協(xié)助貨架設置,安排促銷商品組合和促銷時間商業(yè)活動。

3.4 客戶關系管理

數(shù)據(jù)挖掘技術被用于分析客戶的行為,分類客戶,以此進一步針對客戶流失、客戶利潤、客戶響應等方面進行分析,最終改善客戶關系管理。

3.5 電子商務

數(shù)據(jù)挖掘技術被用于在線交互式營銷系統(tǒng)的經(jīng)營模式、市場策略、Web廣告效果分析以及在線購物的消費者行為分析,從而優(yōu)化網(wǎng)站結構,改善網(wǎng)頁推薦和商品推薦內(nèi)容等。

4 結語

綜上, 數(shù)據(jù)挖掘涵蓋多種理論和技術,有著廣泛應用前景。深入分析研究數(shù)據(jù)挖掘,應用數(shù)據(jù)挖掘技術將是我們未來努力的方向。

參考文獻

[1]Fayyad U M,Piatet sky- shapiro G,Smyth P.Advances in knowledge discovery and data mining.California:AAAI/ MITPress, 1996.

[2]Chen Lei-da et al.Date mining methods,applications,tools[J].Information Systems Management, 2000;17(1):65-70.

[3]H Mannila,H Toivonen et al.Efficient algorithms for discovering as sociation rules[C].In :Knowledge Discovery in Databases(KDD’94),AAAI Press,1994:181-192.

[4]陸汝鈐.人工智能.北京:科學出版社, 1996:823-844.

[5]曾黃麟.粗集理論及其應用[M].重慶:重慶大學出版社,1996.

[6]Michie D,Spiegelhalter D J.Machine Learning,Neural an Stastical Classification.London:Ellis Horwood Press,1994.

[7]何新貴.數(shù)據(jù)采掘中的模糊技術[J].計算機科學,1998,25(???29-131.

[8]萬家華,劉冰,江早.知識發(fā)現(xiàn)中的可視化技術[J].計算機科學,2000,27(增刊):131-134.

作者簡介

王雅軒(1969-),女,研究生學歷?,F(xiàn)為大連外國語大學教授。主要研究方向為軟件理論與應用。

頊聰(1977-)男,研究生學歷。現(xiàn)為大連外國語大學講師。主要研究方向為智能軟件。

數(shù)據(jù)挖掘范文第4篇

關鍵詞:數(shù)據(jù)挖掘;用戶偏好;考試系統(tǒng);入侵檢測

中圖法分類號:TP274文獻標識碼:A文章編號:1009-3044(2010)22-6231-02

Survey on Data Mining Technology

WANG Wen

(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)

Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.

Key words: data mining; user preference; examination system; intrusion detection system

隨著時代的發(fā)展,計算機科學在以飛快的速度前進著。在計算機科學的眾多領域中,人工智能是最富有挑戰(zhàn)性和創(chuàng)造性的一個領域。近幾十年來,隨著人工智能技術的日漸成熟,人們對人工智能的研究更加深入,對人工智能更加重視。科學界對于人工智能的重要性也已形成共識。

自進入21世紀以來,電子數(shù)據(jù)獲取與計算機技術方面的不斷發(fā)展以及網(wǎng)絡的廣泛普及與應用,人們?nèi)粘I钪薪邮盏臄?shù)據(jù)和信息較以往正以飛快的速度增加,因而形成了獨特的知識爆炸時代。就在最近幾十年很多超大型數(shù)據(jù)庫的產(chǎn)生使得整個社會發(fā)生著天翻地覆的變化,遍及銀行存款、超級市場銷售、粒子物理、天文學、化學、醫(yī)學以及政府統(tǒng)計等領域。在這個數(shù)字化、信息化時代,這么大規(guī)模的數(shù)據(jù)庫以及以后可能誕生的更大規(guī)模的數(shù)據(jù)庫的數(shù)據(jù)管理問題將會是以后對數(shù)據(jù)處理的一個重要關注點。眾多科技工作者共同關注的焦點集中在了如何從這些大型數(shù)據(jù)庫中發(fā)現(xiàn)有用的、信息、模式以及如何實現(xiàn)有效的數(shù)據(jù)處理方法。因而“數(shù)據(jù)挖掘”(Data Mining) 的新領域逐漸走進了人們的事業(yè),并且在人們的關注和不斷研究下飛速發(fā)展,這是一個與統(tǒng)計學、人工智能、模式識別、機器學習、數(shù)據(jù)庫技術以及高性能并行計算等領域都有很大相關的新學科,正是計算機學科的一個研究重點。

1 數(shù)據(jù)挖掘的一般過程

數(shù)據(jù)挖掘一般分為如下四個步驟(圖1)。

1.1 數(shù)據(jù)預處理

收集和凈化來自各種數(shù)據(jù)源或數(shù)據(jù)倉庫的信息,并加以存儲, 一般存于數(shù)據(jù)倉庫中。

1.2 模型搜索

利用數(shù)據(jù)挖掘在數(shù)據(jù)庫中匹配模型,這個搜索過程可以由系統(tǒng)自動執(zhí)行,自下而上搜索原始數(shù)據(jù)以發(fā)現(xiàn)它們之間的某種聯(lián)系;也可以進行用戶交互,由分析人員發(fā)問,自頂向下尋找以驗證假設的正確性。一個問題的搜索過程可能用到許多模型,如神經(jīng)網(wǎng)絡、基于規(guī)則的系統(tǒng)(決策樹)、機器學習、基于實例的推理等。

1.3 評價輸出結果

一般來說,數(shù)據(jù)挖掘的搜索過程需要反復多次,當分析人員評價輸出結果后,它們可能會形成一些新的問題,或者要求對某一方面作更精細的查詢,通過反復的搜索過程即可滿足分析人員的這種需求。

1.4 生成報告

知識的發(fā)現(xiàn)過程可以由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估和知識表示等幾個步驟組成。數(shù)據(jù)挖掘可以與用戶或知識庫交互,把用戶關心的模式提交給廣大用戶,或作為新的知識存放在知識庫中。

2 數(shù)據(jù)挖掘應用

2.1 數(shù)據(jù)挖掘在實現(xiàn)網(wǎng)站用戶偏好度的應用

數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應用質(zhì)量問題。使數(shù)據(jù)能夠被更加高效的利用,對無用的數(shù)據(jù)加以摒棄,是數(shù)據(jù)挖掘技術最主要的實現(xiàn)形式,也是其最重要的應用方式。傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)相對于Web的數(shù)據(jù)而言,其結構性很強,是完全結構化的數(shù)據(jù),而半結構化則是Web上的數(shù)據(jù)最大特點。因而,面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘較之面向Web的數(shù)據(jù)挖掘比要簡單許多。據(jù)統(tǒng)計,網(wǎng)站上的絕大部分內(nèi)容對絕大部分用戶來說是無用的信息。事實是對于某個特定用戶來說,其關心的內(nèi)容僅是網(wǎng)站上極小部分的內(nèi)容,而網(wǎng)站上提供的更多的內(nèi)容對于這個用戶來說是其不感興趣的,并且過多的信息往往會掩蓋有用的信息,使得用戶的查詢效率降低,并且對于網(wǎng)站也不是一件利事。

對于Web數(shù)據(jù)挖掘技術而言,半結構化數(shù)據(jù)源模型和半結構化數(shù)據(jù)模型的查詢與集成問題是應當首要解決的問題。解決Web上的異構數(shù)據(jù)的集成與查詢問題,有一個模型來清晰地描述Web上的數(shù)據(jù)是很必要的。因此,針對數(shù)據(jù)半結構化的Web數(shù)據(jù)的特點,尋找一個半結構化的數(shù)據(jù)模型至關重要。并且除此定義一個半結構化數(shù)據(jù)模型之外,一種半結構化模型抽取技術(自動地從現(xiàn)有數(shù)據(jù)中抽取半結構化模型的技術)也是應當提出的。因而半結構化模型和半結構化數(shù)據(jù)模型抽取技術是面向Web的數(shù)據(jù)挖掘實現(xiàn)的重要前提。

用戶瀏覽網(wǎng)站上的內(nèi)容時,他會被很的多因素影響,網(wǎng)頁的外觀,信息標題,網(wǎng)頁鏈接以及個人的興趣和習慣等等。我們可以設定合理的假設,建立他們之間的模型,利用以上提到的方法解決用戶偏好度的問題。

2.2 數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應用

數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應用最主要體現(xiàn)在題庫的構建,下面分別介紹題庫的構建中數(shù)據(jù)挖掘的應用情況。

在設計數(shù)據(jù)庫方面,數(shù)據(jù)庫主要由題庫、答案庫和答案關鍵字庫構成,題型庫又涵括科目、題號、題型、題目、難度、分值等字段;答案庫中包含科目、題號、分值、答案以及在同一題中有不同答案時應提供的不同答案序號等字段;答案關鍵字庫中有題號、答案序號、權重和答案關鍵字。此后在將答案錄入答案庫。對于客觀題而言,僅僅需要錄入唯一的答案;但對于主觀題而言,則需要盡量給出多個參考答案并將每個答案的關鍵字及其所對應的權值、答案序號輸入答案關鍵字庫。

通常有兩類數(shù)據(jù)挖掘方法:①統(tǒng)計型,應用概率分析、相關性、聚類分析和判別分析等技術得以實現(xiàn);②通過人工智能中的機器學習,經(jīng)過訓練以及學習輸入大量的樣品集,以得出需要的模式或參數(shù)。由于每一種方法都根據(jù)其特點都有其優(yōu)勢以及相應的引用領域,最后結果的質(zhì)量和效果將受到數(shù)據(jù)挖掘技術選擇的影響,采用多種技術結合的方法,其各自的優(yōu)勢可以達到互補的要求,從而實現(xiàn)最佳配置。下面介紹了兩種數(shù)據(jù)挖掘方法: ①決策樹算法:為每個問題的答案構造一個二叉樹,每個分支或者是一個新的決策點,或者是一個葉子節(jié)點。在沿著決策樹從上到下的遍歷過程中,對每個問題的不同回答導致不同的分支,最后到達一個葉子節(jié)點,每個葉子節(jié)點都會對應確定的權值,通過對權值的計算判定得分;②模糊論方法:利用模糊集合理論,對實際問題進行模糊判斷、模糊決策、模糊模式識別、模糊簇聚分析。由于主觀題答案很靈活,答案不可能完全匹配,采用此方法將考生答案與答案庫中的答案進行對照,以確定答案的正確度,從而更客觀準確地評定主觀題分數(shù)。

2.3 數(shù)據(jù)挖掘在網(wǎng)絡入侵檢測系統(tǒng)方面的應用

入侵檢測就是通過運用一些分析方法對從各種渠道獲得的反映網(wǎng)絡狀況和網(wǎng)絡行為的數(shù)據(jù)進行分析、提煉,再根據(jù)分析結果對這些數(shù)據(jù)進行評價,從而能夠識別出正常和異常的數(shù)據(jù)或者對潛在的新型入侵做出預測,以保證網(wǎng)絡的安全運行。

基于分布式數(shù)據(jù)挖掘的入侵檢測系統(tǒng)要對一個網(wǎng)段上的信息進行全面而細致的監(jiān)測,同時在網(wǎng)絡上多個點進行數(shù)據(jù)采集,如網(wǎng)關和特別需要保護的服務器等。整個系統(tǒng)構成分為本地分類器、規(guī)則學習模塊和集中分類器三塊基本構件。本地分類器負責對從網(wǎng)絡上各個點采集到的數(shù)據(jù)通過預處理模塊去除掉無效數(shù)據(jù),并將原始數(shù)據(jù)處理成為以后進行數(shù)據(jù)挖掘算法可識別的格式,以實現(xiàn)對數(shù)據(jù)的初步檢測和處理。本地分類器有2個輸出:一個輸出為分類數(shù)據(jù),用于提交給規(guī)則學習模塊,另外一個為數(shù)據(jù)摘要,用于提交給集中分類器。規(guī)則學習模塊負責對標記過的分類數(shù)據(jù)進行深層次的數(shù)據(jù)挖掘,從而學習到新的知識。學習到的知識被直接錄入到規(guī)則庫中,這樣保證了規(guī)則庫可以根據(jù)網(wǎng)上的變化可以隨時達到更新的需求。另外一種方式是通過規(guī)則學習模塊實現(xiàn)人工訓練系統(tǒng),從而實現(xiàn)升級規(guī)則庫的需求。最后將分布式數(shù)據(jù)挖掘的結果形成數(shù)據(jù)摘要發(fā)送給集中分類器,由集中分類器對各點數(shù)據(jù)摘要進行匯集,從而做出綜合判斷,達到有效地檢測協(xié)同攻擊的效果,最后將檢測結果提交給決策模塊。

3 結束語

數(shù)據(jù)挖掘技術是人工智能學科的一個重要分支,也是現(xiàn)代計算機科學的一個研究重點?,F(xiàn)在基于數(shù)據(jù)挖掘技術的科研可以說是碩果累累,自從人工智能這個概念被提出來之后,其發(fā)展一直是計算機學科的熱門而且其分支廣而泛,都在不同的領域發(fā)揮著十分重要的作用。相信在計算機研究人員的不斷努力下數(shù)據(jù)挖掘會在更多的方面服務人們,并且期待著新的理論的提出。

參考文獻:

[1] 何克抗.建立題庫的理論[M].長沙:國防科技大學出版社,1995.

[2] 劉波,段麗艷.一個基于Internet的通用題庫系統(tǒng)的設計與實現(xiàn)[J].華南師范大學學報:自然科學版,2000(1):39-44.

[3] 王實,高文.數(shù)據(jù)挖掘中的聚類方法[J].計算機科學,2000,27(4):42-45.

數(shù)據(jù)挖掘范文第5篇

本課的教學對象為七年級學生,這個年齡段的學生自主和獨立意識較強,具備一定的信息搜集、處理、表達能力,喜歡在學習的過程中體驗和理解事物,但分析思考問題缺乏深度。在日常學習、生活中,學生經(jīng)常要對數(shù)據(jù)做搜集、整理、運算、統(tǒng)計和分析工作,但他們的認知大多只停留在表層,僅學會了數(shù)據(jù)加工的一些基本操作,缺乏從數(shù)據(jù)挖掘角度分析數(shù)據(jù)的意識,更不會運用統(tǒng)計學方法尋找蘊藏在數(shù)據(jù)之中的規(guī)律,借助它解決學習和生活中的實際問題。

學習內(nèi)容分析

本課是蘇科版七年級初中信息技術第三章第3節(jié)的內(nèi)容,主要包括“數(shù)據(jù)挖掘的作用”和“數(shù)據(jù)挖掘的過程”兩個部分,可深入細分為“什么是數(shù)據(jù)挖掘”“數(shù)據(jù)準備”“數(shù)據(jù)挖掘”“規(guī)律表示”四個內(nèi)容。教學中,為了讓學生深刻體會數(shù)據(jù)挖掘的意義和價值,教師應鼓勵他們對數(shù)據(jù)進行多角度加工與分析,找到規(guī)律或有用的信息,用恰當?shù)姆绞街庇^地表達出來,學會搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說話,讓數(shù)據(jù)挖掘更好地服務于生活與學習。

教學目標

知識與技能目標:理解數(shù)據(jù)挖掘的概念,體會數(shù)據(jù)挖掘的作用。

過程與方法目標:嘗試進行數(shù)據(jù)挖掘,經(jīng)歷數(shù)據(jù)挖掘的一般過程。

情感態(tài)度與價值觀目標:樹立用數(shù)據(jù)說話、用數(shù)據(jù)指導生活的思想意識。

教學重難點

重點:數(shù)據(jù)挖掘的概念及數(shù)據(jù)挖掘的一般過程。

難點:數(shù)據(jù)準備及挖掘的過程。

教學策略

數(shù)據(jù)挖掘是一種強大的分析數(shù)據(jù)的方法,因涉及到專業(yè)軟件和統(tǒng)計學術語、數(shù)學模型等,會讓學生難以理解。而日常使用的WPS表格,作為數(shù)據(jù)挖掘的有效工具,可以讓學生在分析具體數(shù)據(jù)的過程中,掌握數(shù)據(jù)挖掘的方法。因此,本節(jié)課教學應讓學生從已有經(jīng)驗出發(fā),運用WPS表格中的簡單工具,學習數(shù)據(jù)挖掘的一般方法。

“數(shù)據(jù)挖掘”對學生而言,是一個全新的概念,概念的建構需要一步步地不斷累積,從表層到內(nèi)涵,逐步深化。學生只有在了解了“數(shù)據(jù)挖掘”的基本含義,并嘗試挖掘的基礎上,才能體會其作用和意義。所以,筆者設計了層層遞進的學習活動(情境再現(xiàn),感受數(shù)據(jù)挖掘―案例研習,認識數(shù)據(jù)挖掘―比較空氣質(zhì)量,嘗試數(shù)據(jù)挖掘―同比空氣質(zhì)量,再探數(shù)據(jù)挖掘―暢想未來,展望數(shù)據(jù)挖掘),并且在活動中適時搭建學習所需的“支架”,來幫助學生完成知識的建構。筆者通過一系列的活動,讓學生在做中學,在學中思,在思中用,在情境化的技術活動中,歸納出數(shù)據(jù)挖掘的方法,從而樹立用數(shù)據(jù)說話、用數(shù)據(jù)指導生活的思想意識。

教學過程

1.情境再現(xiàn),感受數(shù)據(jù)挖掘

活動1:情境再現(xiàn),感受數(shù)據(jù)挖掘。

①猜一猜:不同的人群瀏覽同一個網(wǎng)頁時,所看到的內(nèi)容是否一致。

②觀察鳳凰網(wǎng)的廣告區(qū)域截圖,在組內(nèi)交流(如下頁圖1,不同人群瀏覽的同一網(wǎng)頁,推送的廣告不同)。

③京東為什么能夠根據(jù)個人喜好推送商品?

小結:京東在挖掘和分析用戶瀏覽行為的基礎上,進行定向產(chǎn)品推廣。

設計意圖:思維總是由問題開始的,激發(fā)問題,能讓學生積極主動地參與到學習活動中。以京東廣告推送功能來設置情境,把兩種不同的瀏覽行為對照比較,設置懸念,第一時間抓住學生,激發(fā)學生學習新知識、新技術的渴望。

2.案例研習,認識數(shù)據(jù)挖掘

活動2:學生觀看視頻,并思考、總結。

①安保為什么使用熱力圖(如圖2)?(對百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進行挖掘,把握人群密集點動態(tài)趨勢,幫助警方提前疏導、化解安全風險)

②百度大數(shù)據(jù)對旅游有什么作用(如圖3)?(對用戶搜索數(shù)據(jù)深入挖掘,預測熱門旅游景點)

③導航是如何規(guī)劃路徑的(如圖4)?(對道路環(huán)境、天氣情況、特征日等數(shù)據(jù)進行挖掘和分析,得出每條道路在不同環(huán)境或不同時間的路況規(guī)律,確定最優(yōu)的交通路線)

師生對數(shù)據(jù)進行分析、總結(如表1)。

小結:數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中尋找其規(guī)律的技術。數(shù)據(jù)挖掘的目的主要有三個:把握趨勢、預測和求最優(yōu)解。

設計意圖:選取日常生活中運用數(shù)據(jù)挖掘的三個典型事例視頻――熱力圖、旅游預測、導航,借助半成品表格作為輸出支架,歸納出數(shù)據(jù)挖掘的概念和數(shù)據(jù)挖掘的三個目的。體會挖掘數(shù)據(jù)價值性的同時,認識數(shù)據(jù)加工的重要性,為數(shù)據(jù)挖掘的學習做好鋪墊。

3.比較空氣質(zhì)量,嘗試數(shù)據(jù)挖掘

師:圖5中空氣質(zhì)量預報實現(xiàn)了數(shù)據(jù)挖掘的哪一種目標?(把握趨勢)鹽城市空氣質(zhì)量如何?借助熟悉的WPS表格工具,嘗試挖掘空氣質(zhì)量狀況。

活動3:比較鹽城、秦州、淮安等周邊城市空氣質(zhì)量狀況。

①登錄中國空氣質(zhì)量在線監(jiān)測分析平臺(http:///historydata/),建立鹽城周邊三市空氣質(zhì)量狀況工作表(如圖6)。

影響空氣質(zhì)量的因素很多,AQI指數(shù)是衡量空氣質(zhì)量的重要指標。

教師演示:瀏覽數(shù)據(jù),提取數(shù)據(jù),組成工作表(如圖7)。

②計算各市4月份空氣質(zhì)量指數(shù)AQI的平均數(shù)。(提示:AVERAGE公式使用方法以及自動填充柄的使用)

③比較4月份空氣質(zhì)量狀況。(結論:質(zhì)量指數(shù)平均值大小依次是鹽城、秦州、淮安)

師:根據(jù)質(zhì)量指數(shù),利用函數(shù)工具計算平均數(shù),得出空氣質(zhì)量狀況,其實就是數(shù)據(jù)的挖掘。數(shù)據(jù)挖掘的一般過程如圖8所示。

設計意圖:從全國空氣質(zhì)量在線監(jiān)測分析平臺搜集數(shù)據(jù),選擇WPS函數(shù)工具挖掘數(shù)據(jù),并對挖掘結果加以解釋,來建構數(shù)據(jù)挖掘的一般過程。在嘗試數(shù)據(jù)挖掘的過程中,學會運用計算思維解決問題,借助流程圖總結挖掘過程,有助于學生從整體上把握知識,進一步促進認知體系的構建。

4.同比空氣質(zhì)量,再探數(shù)據(jù)挖掘

師:通過挖掘比較,我們得出鹽城市4月份空氣質(zhì)量在周邊城市當中最好,各市以前的空氣質(zhì)量狀況如何?

活動4:比較各市2014年、2015年空氣質(zhì)量數(shù)據(jù),說明哪一年空氣質(zhì)量更好(如圖9)。

①在選定城市后,思考如何同比質(zhì)量。

②選取函數(shù)或圖表工具,完成挖掘。

③規(guī)律表示。

④從“我的數(shù)據(jù)分析報告”中的各組中任選城市,從“2014年數(shù)據(jù)、2015年數(shù)據(jù)”工作表中,選取數(shù)據(jù)到“同比空氣質(zhì)量”進行分析(如下頁表2)。

小組匯報挖掘過程和得出的結論,形成對數(shù)據(jù)挖掘的新認識。

小結:用平均數(shù)比較,各市兩年的數(shù)據(jù)基本相同,但是合格月份數(shù)不一定相同,同比AQI低的月份數(shù)也不相同。學生同比之后發(fā)現(xiàn),2015年空氣質(zhì)量好于2014年。

設計意圖:學生借助分析報告,以分組合作的形式,再次經(jīng)歷挖掘數(shù)據(jù)的過程,找到規(guī)律或有用的信息,加深對挖掘過程的理解。鼓勵學生對數(shù)據(jù)進行多角度的加工與分析,選擇合適的工具進行挖掘,體現(xiàn)了多元化的思想。

5.暢想未來,展望數(shù)據(jù)挖掘

觀看視頻(如上頁圖10,圖10中左圖為京東慧眼的視頻截圖,右圖為基因測序的視頻截圖),想象:數(shù)據(jù)挖掘技術的廣泛應用,對生活會產(chǎn)生怎樣的影響?

如今,數(shù)據(jù)挖掘改變了傳統(tǒng)的生活模式,未來將會產(chǎn)生更加深遠的影響。因此,我們應學會搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說話,挖掘數(shù)據(jù)創(chuàng)造出更智慧的生活方式。

設計意圖:通過視頻播放,讓學生深度感受“數(shù)據(jù)挖掘”與生活息息相關,挖掘數(shù)據(jù)將給人們生活帶來的改變,培養(yǎng)學生搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說話的意識。

點 評

如今,數(shù)據(jù)挖掘已被廣泛應用在各個領域。什么是數(shù)據(jù)挖掘?顧名思義就是從龐大的數(shù)據(jù)中挖掘寶藏(信息、知識、見解等)的方法和過程。顯然,對于初學者而言,這是一個全新的概念,僅靠上述說明難以理解它的含義。在傳統(tǒng)教學中,教師往往讓學生背誦記憶這些內(nèi)容,學生并沒有形成概念的深層理解。為此,董老師從理解數(shù)據(jù)挖掘出發(fā),選取數(shù)據(jù)挖掘的三個典型事例――熱力圖、旅游預測、導航,精心組織學習活動,在半成品表格的引導下,歸納出數(shù)據(jù)挖掘的三個目的――把握趨勢、預測和求最優(yōu)解,體會挖掘數(shù)據(jù)的價值,進而概括出數(shù)據(jù)挖掘的概念。