婷婷超碰在线在线看a片网站|中国黄色电影一级片现场直播|欧美色欧美另类少妇|日韩精品性爱亚洲一级性爱|五月天婷婷乱轮网站|久久嫩草91婷婷操在线|日日影院永久免费高清版|一级日韩,一级鸥美A级|日韩AV无码一区小说|精品一级黄色毛片

首頁 > 文章中心 > 正文

電子商務數(shù)據(jù)挖掘

前言:本站為你精心整理了電子商務數(shù)據(jù)挖掘范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

[摘要]本文介紹了Web數(shù)據(jù)挖掘的概念及其分類,探討了電子商務中Web數(shù)據(jù)挖掘的過程,重點研究了Web數(shù)據(jù)挖掘方法,從而有效提高電子商務企業(yè)的競爭力。

[關鍵詞]電子商務數(shù)據(jù)挖掘Web挖掘

Internet是一個巨大、分布廣泛、全球性的信息資源儲備庫。隨著上網(wǎng)人數(shù)的急劇增加,電子商務的蓬勃發(fā)展,各種基于互聯(lián)網(wǎng)的商業(yè)Web站點也面臨越來越激烈的競爭。Web包含了豐富和動態(tài)的超鏈接信息,以及Web頁面的訪問和使用信息,這為數(shù)據(jù)挖掘提供了大量豐富的資源。

一、電子商務與Web數(shù)據(jù)挖掘

電子商務(E-Commerce)是以網(wǎng)絡為平臺,以現(xiàn)代信息技術為手段,以經(jīng)濟效益為中心的現(xiàn)代化商業(yè)運轉模式,其最終目標是實現(xiàn)商務活動的網(wǎng)絡化、自動化與智能化。無論EC企業(yè)采用B2B、B2C還是B2G電子商務模式,商品的采購者都需要通過Web方式與商品的供應商及其合作者之間建立信息流的交互,那么,一方面通過Web方式與購買者主動、方便、快捷的獲得期望主題的信息;另一方面供應商與合作伙伴們?nèi)绾瓮ㄟ^他們的集成信息系統(tǒng),運用知識把訪問者、網(wǎng)上購買者的訪問數(shù)據(jù)從潛在的、隱含的、事先不知的狀態(tài),經(jīng)過提取、洗滌、加工變?yōu)闈摿薮蟮膬r值信息,從而提高企業(yè)的核心競爭力。

Web數(shù)據(jù)挖掘(WebDataMining)是利用數(shù)據(jù)挖掘從Web文檔及Web服務中自動發(fā)現(xiàn)并提取用戶感興趣的、潛在的、有用的模式和隱藏信息。Web數(shù)據(jù)挖掘的主要目標就是從Web的訪問記錄中抽取用戶感興趣的模式,WWW服務器中的訪問日志,記錄了關于用戶訪問和交互的信息,通過Web數(shù)據(jù)挖掘,就可以根據(jù)用戶的訪問興趣、訪問頻度、訪問時間動態(tài)地調(diào)整頁面結構,改進服務,開展有針對性的電子商務活動,以更好地滿足客戶的需求。

二、Web挖掘的分類

Web挖掘是從WWW上抽取知識的過程。它是從與WWW相關的資源和行為中抽取感興趣的有用的模式和隱含信息。

1.Web內(nèi)容挖掘

Web內(nèi)容挖掘是對Web頁面內(nèi)容進行挖掘,是從大量的Web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識的過程。Web挖掘的數(shù)據(jù)源有:服務器數(shù)據(jù)、查詢數(shù)據(jù)、在線市場數(shù)據(jù)、Web頁面、Web頁面的超級鏈接關系、客戶登記信息等。

2.Web結構挖掘

Web結構挖掘是從WWW上的組織結構和鏈接關系中推導知識。由于超文本文檔間的關聯(lián)關系使得WWW不僅僅可以揭示文檔中所包含的信息,同時也可以揭示文檔間的關聯(lián)關系所代表的信息。利用這些信息可以對頁面進行排序,發(fā)現(xiàn)重要的頁面。挖掘Web結構的目的是發(fā)現(xiàn)頁面的結構和Web結構,在此基礎上對頁面進行分類和聚類,從而找到權威頁面。

3.Web使用記錄挖掘

Web使用記錄挖掘的主要目標是從Web的訪問記錄中抽取感興趣的模式。WWW中的每個服務器都保留了訪問日志(Webaccesslog),記錄了關于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為,從而改進站點的結構,或為用戶提供個性化的服務。

三、Web挖掘的過程和方法

1.Web挖掘的過程

電子商務中的Web挖掘過程一般由3個主要階段組成:數(shù)據(jù)準備、挖掘操作、結果表達和解釋。

(1)數(shù)據(jù)準備:這個階段又可分成3個子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預處理。數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫運行環(huán)境中的數(shù)據(jù)進行合并處理,解決語義模糊準備,這個階段又可分成為處理數(shù)據(jù)中的遺漏等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質量。預處理是為了克服數(shù)據(jù)挖掘工具的局限性。

(2)數(shù)據(jù)挖掘:這個階段進行實際的挖掘操作,包括的要點有:決定如何產(chǎn)生假設;選擇合適的工具;發(fā)掘知識的操作;證實發(fā)現(xiàn)的知識。

(3)結果表述和解釋:根據(jù)最終用戶的決策目的對提取的信息進行分析,把最有價值的信息區(qū)分開來,并且通過決策支持工具提交給決策者。因此,這一步驟的任務不僅是把結果表達出來,還要對信息進行過濾處理,如果不能令決策者滿意,需要重復上述過程。

2.Web數(shù)據(jù)挖掘的方法

(1)協(xié)同過濾:協(xié)同過濾技術采用最近鄰技術,利用客戶的歷史、喜好信息計算用戶之間的距離,目標客戶對特點商品的喜好程度由最近鄰居對商品的評價的加權平均值來計算。

(2)關聯(lián)規(guī)則:關聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項的相關性,用數(shù)學模型來描述關聯(lián)規(guī)則發(fā)現(xiàn)的問題:x=>y的蘊含式,其中x,y為屬性——值對集(或稱為項目集),且X∩Y空集。在數(shù)據(jù)庫中若S%的包含屬性——值對集X的事務也包含屬性——值集Y,則關聯(lián)規(guī)則X=>Y的置信度為C%。

(3)Web日志的聚類算法:聚類分析是把具有相似特征的用戶或數(shù)據(jù)項歸類,在網(wǎng)站管理中通過聚類具有相似瀏覽行為的用戶?;谀:碚摰腤eb頁面聚類算法與客戶群體聚類算法的模糊聚類定義相同,客戶訪問情況可用URL(Uj)表示。有Suj={(Ci,fSuj(Ci))|Ci∈C},其中fSuj(Ci)→[0,1]是客戶Ci和URL(Uj)間的關聯(lián)度:式中m為客戶的數(shù)量,hits(Ci)表示客戶Ci訪問URL(Uj)的次數(shù)。利用Suj和模糊理論中的相似度度量Sfij定義建立模糊相似矩陣,再根據(jù)相似類[Xi]R的定義構造相似類,合并相似類中的公共元素得到的等價類即為相關Web頁面。

(4)序列分析:序列模式分析和關聯(lián)分析類似,其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側重點在于分析數(shù)據(jù)間的前后序關系。它能發(fā)現(xiàn)數(shù)據(jù)庫中如“在某一段時間內(nèi),客戶購買商品A,接著會購買商品B,爾后又購買商品C,即序列A→B→C出現(xiàn)的頻率高”之類的信息。序列模式描述的問題是:在給定的交易序列數(shù)據(jù)庫中,每個序列按照交易的時間排列的一組交易集,挖掘序列函數(shù)作用是返回該數(shù)據(jù)庫中高頻率出現(xiàn)有序列。

四、結束語

電子商務是現(xiàn)代化技術發(fā)展的必然結果,也是未來商業(yè)運作模式的必然選擇,但還需進一步鍵全電子商務的安全立法和完善物流配送體系。為了給電子商務營造一個良好的環(huán)境,通過選擇較好的數(shù)據(jù)挖掘方法,真正發(fā)揮數(shù)據(jù)挖掘的作用,才能使企業(yè)在激烈的市場競爭中做出正確的決策,保持有力的競爭優(yōu)勢。

參考文獻:

[1]毛國君段立娟:數(shù)據(jù)挖掘原理與算法[M].清華大學出版社,2005.7

[2]王嵐張鵬祥:基于Web的數(shù)據(jù)挖掘研究.長春師范學院學報,2005,24(3):59-61