數(shù)據(jù)挖掘技術(shù)在交通事故分析中的應(yīng)用
(1)信息熵的計(jì)算
信息熵的計(jì)算公式為:本文引用地址:http://www.ex-cimer.com/article/188701.htm
式中,i取值1、2,U分別表示有交通事故和無(wú)交通事故樣本,P(Ui)表示類(lèi)別為Ui的樣本占樣本總數(shù)中的比例。
根據(jù)式(1),信息熵H(U的計(jì)算算法為:
式中P(Vj)表示屬性A中取值為Vj的樣本占樣本總數(shù)的比例,P(Ui|Vj)表示屬性A取值Vj時(shí),類(lèi)別為Ui的概率。
例如,對(duì)于駕駛員年齡屬性,j的取值范圍是駕駛員的年齡范圍,約20~70;i的取值范圍仍是1、2,表示事故的有無(wú)。則駕駛員年齡屬性條件熵計(jì)算的具體算法為:
分別計(jì)算出決策屬性的互信息Gain(年齡)、Gain(駕齡)、Gain(性別)的數(shù)值,選擇互信息最大的屬性作為決策樹(shù)的根節(jié)點(diǎn)。依該屬性的取值作為分枝,每個(gè)分枝對(duì)應(yīng)一個(gè)子集。對(duì)于每一個(gè)子集,重新計(jì)算其所含樣本的信息熵、條件熵和互信息,確定該子集的當(dāng)前節(jié)點(diǎn)及其分枝,直到遍歷了所有的決策屬性,獲得全部的葉子節(jié)點(diǎn)。葉子節(jié)點(diǎn)的數(shù)值就是從決策樹(shù)根節(jié)點(diǎn)開(kāi)始,沿相關(guān)路徑(分枝)到達(dá)葉子節(jié)點(diǎn)所包含的樣本集可能發(fā)生交通事故的概率。
這樣建立的決策樹(shù)及概率分布就把交通事故與駕駛員的關(guān)系清晰地表露出來(lái),同樣,也可選擇其他挖掘主題如交通事故與機(jī)動(dòng)車(chē)輛的關(guān)系、與天氣的關(guān)系等進(jìn)行挖掘。
4 結(jié)語(yǔ)
經(jīng)過(guò)多年的發(fā)展與積累,與交通管理相關(guān)的部門(mén)積累了大量的與交通安全相關(guān)的數(shù)據(jù)資源,充分利用這些數(shù)據(jù)資源,使其為促進(jìn)經(jīng)濟(jì)發(fā)展、創(chuàng)建和諧社會(huì)服務(wù)。數(shù)據(jù)挖掘技術(shù)是開(kāi)發(fā)這些數(shù)據(jù)資源的有效手段,可以找出這些海量數(shù)據(jù)之間的內(nèi)在的規(guī)律性的聯(lián)系,從而為相關(guān)部門(mén)或機(jī)構(gòu)的宏觀(guān)決策提供技術(shù)支持。與其他相關(guān)研究不同.這里的工作基于對(duì)機(jī)動(dòng)車(chē)駕駛員總體樣本的研究,結(jié)果會(huì)更真實(shí)可信,指導(dǎo)意義更強(qiáng)。
評(píng)論