基于電子商務中的數(shù)據(jù)挖掘技術研究
國際互聯(lián)網(wǎng)絡的日益普及,各種形式的信息大量地產(chǎn)生和收集導致了信息爆炸。現(xiàn)代社會的競爭趨勢要求對這些信息進行實時的和深層次的分析,雖然現(xiàn)在有了更強大的信息存儲和檢索系統(tǒng).但是用戶在分析和使用所擁有的信息方面卻變得越來越困難。如何對大量信息進行有效組織利用,使用戶能夠從大量繁雜的信息中找出真正有價值的信息和知識,幫助企業(yè)制定更好的營銷策略。信息處理技術有了新的應用研究課題――數(shù)據(jù)挖掘。主要討論采用數(shù)據(jù)挖掘技術在新興的電子商務領域的應用研究。
2 電子商務與數(shù)據(jù)挖掘簡介
電子商務是指個人或企業(yè)通過Internet網(wǎng)絡,采用數(shù)字化電子方式進行商務數(shù)據(jù)交換和開展商務業(yè)務活動。目前國內已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購、網(wǎng)上銀行、網(wǎng)上支付結算等多種類型的電子商務形式。電子商務正以其成本低廉、方便、快捷、安全、可靠、不受時間和空間的限制等突出優(yōu)點而逐步在全球流行。服務范圍可歸類為:①商業(yè)一商業(yè)(B2B),②商業(yè)一消費者(B2C),③商業(yè)一政府(B2G)。
數(shù)據(jù)挖掘是通過挖掘數(shù)據(jù)倉庫中存儲的大量數(shù)據(jù),從中發(fā)現(xiàn)有意義的新的關聯(lián)模式和趨勢的過程。從商業(yè)的角度定義,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術,其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關鍵性數(shù)據(jù)。數(shù)據(jù)挖掘最吸引人的地方是它能建立預測模型而不是回顧型的模型。利用功能強大的數(shù)據(jù)挖掘技術,可以使企業(yè)把數(shù)據(jù)轉化為有用的信息幫助決策,從而在市場競爭中獲得優(yōu)勢地位。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的不同是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應具有先前未知、有效和可實用3個特征。
3 數(shù)據(jù)挖掘在電子商務中的作用
數(shù)據(jù)挖掘技術之所以可以服務電子商務,是因為它能夠挖掘出活動過程中的潛在信息以指導電子商務營銷活動。在電子商務中其作用有4個方面:
(1)挖掘客戶活動規(guī)律,針對性的在電子商務平臺下以提供“個性化”的服務。
(2)可以在瀏覽電子商務網(wǎng)站的訪問者中挖掘出潛在的客戶。
(3)優(yōu)化電子商務網(wǎng)站巾的信息導航,方便客戶瀏覽。
(4)通過電子商務訪問者的活動信息的挖掘,可以更加深入的了解客戶需求。
4 數(shù)據(jù)挖掘過程
電子商務中的數(shù)據(jù)挖掘的過程一般由3個主要的階段組成:數(shù)據(jù)準備、數(shù)據(jù)挖掘、結果解釋和評價。
(1)數(shù)據(jù)準備數(shù)據(jù)準備又可分為數(shù)據(jù)選取、數(shù)據(jù)預處理。數(shù)據(jù)選取的目的是確定發(fā)現(xiàn)任務的操作對象。即目標數(shù)據(jù),是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù)。數(shù)據(jù)預處理一般包括消除噪聲、推導計算缺值數(shù)據(jù)、消除重復記錄、完成數(shù)據(jù)類型轉換f如把連續(xù)型數(shù)據(jù)轉換為離散型數(shù)據(jù),以便于符號歸納;或是把離散性數(shù)據(jù)轉換為連續(xù)型數(shù)據(jù),以便于神經(jīng)網(wǎng)絡計算)以及對數(shù)據(jù)降維f即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘要考慮的變量個數(shù))。
(2)數(shù)據(jù)挖掘階段首先要確定數(shù)據(jù)挖掘的目標和挖掘的知識類型。確定挖掘任務后,根據(jù)挖掘的知識類型選擇合適的挖掘算法;最后實施數(shù)據(jù)挖掘操作,運用選定的挖掘算法從數(shù)據(jù)庫中抽取所需的知識。
(3)結果的解釋和評價數(shù)據(jù)挖掘階段發(fā)現(xiàn)的知識,經(jīng)過評估,可能存在冗余或無關的知識,這時需要將其剔除:也有可能知識不滿足用戶的要求,需要重復上述挖掘過程重新進行挖掘。另外,由于數(shù)據(jù)挖掘最終要面臨用戶.因此。還需要對所挖掘的知識進行解釋,以一種用戶易于理解的方式(如可視化方式)供用戶所用。
可以看出,以上整個數(shù)據(jù)挖掘過程是不斷地循環(huán)和反復的,因而可以對所挖掘出來的知識不斷求精和深化。最終達到用戶所滿意的結果。
5 電子商務中數(shù)據(jù)挖掘的技術與方法
數(shù)據(jù)挖掘源于人工智能。它利用人工智能中成熟的技術和方法對經(jīng)過處理的數(shù)據(jù)進行分析,其利用的技術方法越多,所得到的信息也就越精確。在電子商務中主要應用的數(shù)據(jù)挖掘技術和方法有:
(1)聚類分析聚類分析可在電子商務過程中從Web查找信息中聚集出具有相似特性的客戶。劃分出客戶群后,能夠幫助企業(yè)開發(fā)和執(zhí)行其市場策略,Web可根據(jù)客戶群提供特定的服務。
(2)關聯(lián)規(guī)則關聯(lián)規(guī)則挖掘是發(fā)現(xiàn)大量數(shù)據(jù)庫中集之間的關聯(lián)關系,這些關聯(lián)關系可以幫助許多商務決策的制定。
(3)分類規(guī)則分類是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,一般用規(guī)則或決策樹模式表示。其目的是把新的記錄分配到預先定義好的類中。
(4)時間序列模式的發(fā)現(xiàn)按時間順序查看時間事件數(shù)據(jù)庫,從中找出另一個或多個相似的時序事件,通過時間序列搜索出重復發(fā)生概率較高的模式。發(fā)現(xiàn)序列模式便于進行電子商務組織預測客戶的查找模式,從而對客戶進行針對性的服務。在時序模式中,一個重要影響的方法是相似時序。
(5)偏差分析描述和分析數(shù)據(jù)的異常或極端現(xiàn)象,包括不規(guī)則數(shù)據(jù)、反常實例和觀測結果與期望值的偏離等。主要用于分析客戶異常行為、信用欺詐甄別和數(shù)據(jù)質量控制。以及網(wǎng)絡安全管理和故障檢測等領域。
(6)預測與評價對歷史數(shù)據(jù)進行綜合分析和歸納.推理出數(shù)據(jù)分布的時效性和規(guī)律性,從而對未來事件發(fā)展的趨勢和結果進行預測和評估。
6 電子商務中挖掘信息的目標
(1)幫助企業(yè)確定營銷機制在電子商務中,商業(yè)信息來自各個渠道,這些數(shù)據(jù)信息經(jīng)過數(shù)據(jù)挖掘處理技術進行處理后,可從中得到用于特定消費群體或個人定向營銷的決策信息,以確定電子商務的營銷機制?;跀?shù)據(jù)挖掘的電子商務營銷,常常可以向消費者發(fā)出與以前的消費行為相關的推銷材料,數(shù)據(jù)挖掘的電子商務營銷對于我國當前情況下的市場競爭具有啟發(fā)意義。經(jīng)常可以看見繁華商業(yè)街上一些廠商對行人不分對象的散發(fā)大量商品宣傳廣告。其結果是不需要的人隨手丟棄,而需要的人未必能夠得到。如果家電維修服務公司向在商店中剛購買家電的消費者郵寄維修服務廣告。藥品廠商向剛在醫(yī)院門診就醫(yī)的特定病人郵寄廣告,其效果肯定比漫無目的的營銷效果要好很多。
評論