基于特征選擇改進LR-Bagging算法的電力欠費風險居民客戶預測
作者 吳漾 朱州 貴州電網(wǎng)有限責任公司信息中心(貴州 貴陽 550003)
本文引用地址:http://www.ex-cimer.com/article/201703/345948.htm吳漾(1984-),男,碩士,工程師,研究方向:電網(wǎng)信息化數(shù)據(jù)管理與數(shù)據(jù)分析管理;朱州,男,高級工程師,博士,研究方向:電網(wǎng)信息化建設與數(shù)據(jù)分析管理。
摘要:本文從電力欠費風險預測的角度出發(fā),提出了一種基于特征選擇改進的LR-Bagging(即以邏輯回歸為基分類器的Bagging集成學習)算法,其精髓在于每一個訓練的LR基分類器的記錄和字段均通過隨機抽樣得到。且算法的終止迭代準則由AUC統(tǒng)計量的變化率決定。該改進算法充分考慮了LR的強泛化能力、Bagging的高精確度,以及特征選擇帶來的LR基分類器的多樣性、弱化的多重共線性與“過擬合”度,效果優(yōu)于單一LR模型。且最終的實驗表明,該改進算法得到的電力欠費居民客戶風險預測模型的準確性與有效性得到提升。
引言
我國電力體制的深化改革為電力行業(yè)引入了市場機制[1],在有效實現(xiàn)電力資源優(yōu)化配置,提高電力資源生產(chǎn)和傳輸效率的同時,也帶給電力企業(yè)更大的市場風險,風險的切實防范和規(guī)避對電力企業(yè)的重要性不言而喻。由于客戶欠費而產(chǎn)生的電費回收風險一直是電力營銷中存在的重大風險之一。
首先,國內學術界專業(yè)人士對于該問題的研究起步較晚[3],主要集中于對電費回收風險的現(xiàn)狀、影響因素、評價、有效性措施等內容的理論研究,缺乏以現(xiàn)實數(shù)據(jù)為基礎量化模型支撐[3-4];雖然也有許多文獻通過對電力客戶信用等級建模對其欠費風險進行預測[5],但模型不夠直接;隨著大數(shù)據(jù)挖掘行業(yè)的蓬勃發(fā)展,近幾年出現(xiàn)了基于邏輯回歸、決策樹的數(shù)據(jù)挖掘算法的電力客戶欠費違約概率預測模型[6-7],但前者選取特征均為二分類變量,適用性較低;后者選擇的模型變量雖較為多樣性,但模型的預測結果差強人意。而本文將借助電力客戶屬性數(shù)據(jù)和行為特征數(shù)據(jù),盡可能挖掘每一個變量與欠費風險的相關信息,建立一個更為準確、使用范圍更廣的客戶欠費風險預測模型。
其次,如今關于LR的文章或者關于Bagging集成學習的文章有很多,但是基于LR分類器的Bagging算法的應用相對較少,通過特征選擇對基于LR分類器Bagging算法做出改進的相關文獻基本沒有。簡單來說,本文算法為多個不同的LR分類器的集合,其核心在于每一個訓練的LR基分類器的樣本和特征均通過bootstrap技術得到。充分考慮了LR的強泛化能力、Bagging的高精確度,以及特征選擇帶來的LR基分類器的多樣性,使得該算法在精度、實用性上優(yōu)于單一算法,后文的應用恰好證明了這一點。鑒于該算法的這一優(yōu)越性,可嘗試將其應用于其他領域的分類挖掘問題。
本研究的意義體現(xiàn)在兩個方面:一是對于電力欠費客戶風險預測這一模塊的進一步研究;二是基于特征選擇的以LR為基分類器的Bagging算法的改進的借鑒和推廣價值。
1 基于LR分類器的Bagging算法的改進
1.1 LR模型及其基本理論
邏輯回歸(LogisticRegression,LR)模型是一種分類評定模型,是離散選擇法模型之一。它主要是用于對受多因素影響的定性變量的概率預測,并根據(jù)預測的概率對目標變量進行分類。邏輯回歸可分為二項邏輯回歸和多項邏輯回歸,類別的差異取決于目標變量類別個數(shù)的多少。目前,LR模型已經(jīng)廣泛應用于社會學、生物統(tǒng)計學、臨床、數(shù)量心理學、市場營銷等統(tǒng)計實證分析中,且以目標變量為二分類變量為主。
1.1.1 Logistic函數(shù)
假設因變量只有1-0(例如“是”和“否”,“發(fā)生”和“不發(fā)生”)兩種取值,記為1和0。假設在p個獨立自變量作用下,y取1的概率是,取0的概率是1-P,則取1和取0的概率之比為,稱為事件的優(yōu)勢比(odds),表示事件發(fā)生的概率相對于不發(fā)生的概率的強度。對odds取自然對數(shù)可得Logistic函數(shù)為:
(1)
Logistic函數(shù)曲線如圖1所示。
1.1.2 LR模型
LR模型可以探究由于自變量的變化所能導致的因變量決策(選擇)的變化,因變量決策(選擇)的變化意味著Logistic函數(shù)的變化。LR的基本形式為:
因此有:
1.1.4 LR模型的優(yōu)勢與不足
LR模型具有很強的實用性,對比其他的分類判別模型,LR具有以下兩點優(yōu)勢:
(1)泛化能力較好,精度較高
所謂泛化能力,是指機器學習算法對新鮮樣本的適應能力。由于LR模型的自變量多為取值范圍不設限的連續(xù)變量,該模型不僅可以在樣本內進行預測,還可以對樣本外的數(shù)據(jù)進行預測,泛化能力較好,而且精度較高。
(2)能精確控制閾值,調整分類類別
LR模型的求解結果是一個介于0和1間的概率值。這使分類結果的多樣性成為了可能。正常情況下,每一次閾值的調整都會產(chǎn)生不同的分類結果,便于對預測結果進行比較和檢驗,克服了其他分類算法分類數(shù)量無法改變的局限。
當然,LR作為回歸模型的特殊形式,也需要滿足經(jīng)典回歸模型的基本假設,違背這些假設顯然會影響模型的分類效果,多重共線問題就是目前面臨較多的問題。同時,邏輯回歸的性能受特征空間的影響很大,也不能很好地處理大量多類特征或變量,這便是LR分類器的缺點所在。
2.1 集成學習
集成學習[8]是一種機器學習范式,它的基本思想是把多個學習器(通常是同質的)集成起來,使用多個模型(解決方案)來解決同一個問題。因其個體學習器的高精度和個誤差均分布于不同的輸入空間,從而能達到顯著地提高學習系統(tǒng)的泛化能力的效果。
Breiman同時指出,要使得Bagging有效,基本學習器的學習算法必須是不穩(wěn)定的,也就是說對訓練數(shù)據(jù)敏感,且基本分類器的學習算法對訓練數(shù)據(jù)越敏感,Bagging的效果越好。另外由于Bagging算法本身的特點,使得Bagging算法非常適合用來并行訓練多個基本分類器,這也是Bagging算法的一大優(yōu)勢[8]。
2.3 本文算法描述
前文指出,一方面,學習器的穩(wěn)定性,即對訓練數(shù)據(jù)的敏感性,很大程度上影響B(tài)agging算法的效果,其中原因在于差異性小的數(shù)據(jù)對穩(wěn)定性較強的學習器無法很好產(chǎn)生作用,這將影響到基學習模型的多樣性,Bagging算法提高精確度的能力也將大大減弱,而LR模型的不穩(wěn)定性能不突出;另一方面,LR對大特征空間的解釋效果并不理想,且越多的變量特征也將加大變量間多重共線的可能性,LR模型的顯著性無法得到保障。
由于上述兩點原因,本文提出了一種基于特征選擇的LR-Bagging(基分類器為LR的Bagging算法)的改進算法。該算法的精髓在于對每一個LR進行訓練的特征變量需要經(jīng)過有放回的隨機抽樣產(chǎn)生。如此改進的目的在于通過減少或改變變量提高基LR分類器的多樣性,減少變量間的多重共線性與過擬合問題,同時還能較好保留LR與Bagging集成學習的優(yōu)點。
AUC(Area Under Curve)被定義為ROC曲線下的面積,它的取值范圍介于0.5到1之間,是比較分類器間分類效果優(yōu)劣的評價標準。AUC越大,我們認為模型的分類效果越好。一般情況下,,隨著循環(huán)次數(shù)的增加,模型提取的數(shù)據(jù)信息量也會不斷增加,最后達到峰值,所以我們通??梢哉J為組合模型的效果趨于先不斷加強后保持穩(wěn)定的過程。因此,我們把迭代的停止條件的設置為是合理的。
評論