<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 電源與新能源 > 設(shè)計應(yīng)用 > 基于特征選擇改進LR-Bagging算法的電力欠費風(fēng)險居民客戶預(yù)測

          基于特征選擇改進LR-Bagging算法的電力欠費風(fēng)險居民客戶預(yù)測

          作者:吳漾 朱州 時間:2017-03-29 來源:電子產(chǎn)品世界 收藏
          編者按:本文從電力欠費風(fēng)險預(yù)測的角度出發(fā),提出了一種基于特征選擇改進的LR-Bagging(即以邏輯回歸為基分類器的Bagging集成學(xué)習(xí))算法,其精髓在于每一個訓(xùn)練的LR基分類器的記錄和字段均通過隨機抽樣得到。且算法的終止迭代準則由AUC統(tǒng)計量的變化率決定。該改進算法充分考慮了LR的強泛化能力、Bagging的高精確度,以及特征選擇帶來的LR基分類器的多樣性、弱化的多重共線性與“過擬合”度,效果優(yōu)于單一LR模型。且最終的實驗表明,該改進算法得到的電力欠費居民客戶風(fēng)險預(yù)測模型的準確性與有效性得到提升。

          作者 吳漾 朱州 貴州電網(wǎng)有限責(zé)任公司信息中心(貴州 貴陽 550003)

          本文引用地址:http://www.ex-cimer.com/article/201703/345948.htm

            吳漾(1984-),男,碩士,工程師,研究方向:電網(wǎng)信息化數(shù)據(jù)管理與數(shù)據(jù)分析管理;朱州,男,高級工程師,博士,研究方向:電網(wǎng)信息化建設(shè)與數(shù)據(jù)分析管理。

          摘要:本文從電力欠費風(fēng)險預(yù)測的角度出發(fā),提出了一種基于改進的LR-Bagging(即以邏輯回歸為基分類器的)算法,其精髓在于每一個訓(xùn)練的LR基分類器的記錄和字段均通過隨機抽樣得到。且算法的終止迭代準則由統(tǒng)計量的變化率決定。該改進算法充分考慮了LR的強泛化能力、Bagging的高精確度,以及帶來的LR基分類器的多樣性、弱化的多重共線性與“過擬合”度,效果優(yōu)于單一LR模型。且最終的實驗表明,該改進算法得到的電力欠費居民客戶風(fēng)險預(yù)測模型的準確性與有效性得到提升。

          引言

            我國電力體制的深化改革為電力行業(yè)引入了市場機制[1],在有效實現(xiàn)電力資源優(yōu)化配置,提高電力資源生產(chǎn)和傳輸效率的同時,也帶給電力企業(yè)更大的市場風(fēng)險,風(fēng)險的切實防范和規(guī)避對電力企業(yè)的重要性不言而喻。由于客戶欠費而產(chǎn)生的電費回收風(fēng)險一直是電力營銷中存在的重大風(fēng)險之一。

            首先,國內(nèi)學(xué)術(shù)界專業(yè)人士對于該問題的研究起步較晚[3],主要集中于對電費回收風(fēng)險的現(xiàn)狀、影響因素、評價、有效性措施等內(nèi)容的理論研究,缺乏以現(xiàn)實數(shù)據(jù)為基礎(chǔ)量化模型支撐[3-4];雖然也有許多文獻通過對電力客戶信用等級建模對其欠費風(fēng)險進行預(yù)測[5],但模型不夠直接;隨著大數(shù)據(jù)挖掘行業(yè)的蓬勃發(fā)展,近幾年出現(xiàn)了基于邏輯回歸、決策樹的數(shù)據(jù)挖掘算法的電力客戶欠費違約概率預(yù)測模型[6-7],但前者選取特征均為二分類變量,適用性較低;后者選擇的模型變量雖較為多樣性,但模型的預(yù)測結(jié)果差強人意。而本文將借助電力客戶屬性數(shù)據(jù)和行為特征數(shù)據(jù),盡可能挖掘每一個變量與欠費風(fēng)險的相關(guān)信息,建立一個更為準確、使用范圍更廣的客戶欠費風(fēng)險預(yù)測模型。

            其次,如今關(guān)于LR的文章或者關(guān)于的文章有很多,但是基于的Bagging算法的應(yīng)用相對較少,通過對基于Bagging算法做出改進的相關(guān)文獻基本沒有。簡單來說,本文算法為多個不同的的集合,其核心在于每一個訓(xùn)練的LR基分類器的樣本和特征均通過bootstrap技術(shù)得到。充分考慮了LR的強泛化能力、Bagging的高精確度,以及特征選擇帶來的LR基分類器的多樣性,使得該算法在精度、實用性上優(yōu)于單一算法,后文的應(yīng)用恰好證明了這一點。鑒于該算法的這一優(yōu)越性,可嘗試將其應(yīng)用于其他領(lǐng)域的分類挖掘問題。

            本研究的意義體現(xiàn)在兩個方面:一是對于電力欠費客戶風(fēng)險預(yù)測這一模塊的進一步研究;二是基于特征選擇的以LR為基分類器的Bagging算法的改進的借鑒和推廣價值。

          1 基于LR分類器的Bagging算法的改進

          1.1 LR模型及其基本理論

            邏輯回歸(LogisticRegression,LR)模型是一種分類評定模型,是離散選擇法模型之一。它主要是用于對受多因素影響的定性變量的概率預(yù)測,并根據(jù)預(yù)測的概率對目標變量進行分類。邏輯回歸可分為二項邏輯回歸和多項邏輯回歸,類別的差異取決于目標變量類別個數(shù)的多少。目前,LR模型已經(jīng)廣泛應(yīng)用于社會學(xué)、生物統(tǒng)計學(xué)、臨床、數(shù)量心理學(xué)、市場營銷等統(tǒng)計實證分析中,且以目標變量為二分類變量為主。

            1.1.1 Logistic函數(shù)

            假設(shè)因變量只有1-0(例如“是”和“否”,“發(fā)生”和“不發(fā)生”)兩種取值,記為1和0。假設(shè)在p個獨立自變量作用下,y取1的概率是,取0的概率是1-P,則取1和取0的概率之比為,稱為事件的優(yōu)勢比(odds),表示事件發(fā)生的概率相對于不發(fā)生的概率的強度。對odds取自然對數(shù)可得Logistic函數(shù)為:

          (1)

            Logistic函數(shù)曲線如圖1所示。

            1.1.2 LR模型

            LR模型可以探究由于自變量的變化所能導(dǎo)致的因變量決策(選擇)的變化,因變量決策(選擇)的變化意味著Logistic函數(shù)的變化。LR的基本形式為:

            因此有:

            1.1.4 LR模型的優(yōu)勢與不足

            LR模型具有很強的實用性,對比其他的分類判別模型,LR具有以下兩點優(yōu)勢:

            (1)泛化能力較好,精度較高

            所謂泛化能力,是指機器學(xué)習(xí)算法對新鮮樣本的適應(yīng)能力。由于LR模型的自變量多為取值范圍不設(shè)限的連續(xù)變量,該模型不僅可以在樣本內(nèi)進行預(yù)測,還可以對樣本外的數(shù)據(jù)進行預(yù)測,泛化能力較好,而且精度較高。

            (2)能精確控制閾值,調(diào)整分類類別

            LR模型的求解結(jié)果是一個介于0和1間的概率值。這使分類結(jié)果的多樣性成為了可能。正常情況下,每一次閾值的調(diào)整都會產(chǎn)生不同的分類結(jié)果,便于對預(yù)測結(jié)果進行比較和檢驗,克服了其他分類算法分類數(shù)量無法改變的局限。

            當(dāng)然,LR作為回歸模型的特殊形式,也需要滿足經(jīng)典回歸模型的基本假設(shè),違背這些假設(shè)顯然會影響模型的分類效果,多重共線問題就是目前面臨較多的問題。同時,邏輯回歸的性能受特征空間的影響很大,也不能很好地處理大量多類特征或變量,這便是LR分類器的缺點所在。

          2

          2.1 集成學(xué)習(xí)

            集成學(xué)習(xí)[8]是一種機器學(xué)習(xí)范式,它的基本思想是把多個學(xué)習(xí)器(通常是同質(zhì)的)集成起來,使用多個模型(解決方案)來解決同一個問題。因其個體學(xué)習(xí)器的高精度和個誤差均分布于不同的輸入空間,從而能達到顯著地提高學(xué)習(xí)系統(tǒng)的泛化能力的效果。

            Breiman同時指出,要使得Bagging有效,基本學(xué)習(xí)器的學(xué)習(xí)算法必須是不穩(wěn)定的,也就是說對訓(xùn)練數(shù)據(jù)敏感,且基本分類器的學(xué)習(xí)算法對訓(xùn)練數(shù)據(jù)越敏感,Bagging的效果越好。另外由于Bagging算法本身的特點,使得Bagging算法非常適合用來并行訓(xùn)練多個基本分類器,這也是Bagging算法的一大優(yōu)勢[8]。

          2.3 本文算法描述

            前文指出,一方面,學(xué)習(xí)器的穩(wěn)定性,即對訓(xùn)練數(shù)據(jù)的敏感性,很大程度上影響B(tài)agging算法的效果,其中原因在于差異性小的數(shù)據(jù)對穩(wěn)定性較強的學(xué)習(xí)器無法很好產(chǎn)生作用,這將影響到基學(xué)習(xí)模型的多樣性,Bagging算法提高精確度的能力也將大大減弱,而LR模型的不穩(wěn)定性能不突出;另一方面,LR對大特征空間的解釋效果并不理想,且越多的變量特征也將加大變量間多重共線的可能性,LR模型的顯著性無法得到保障。

            由于上述兩點原因,本文提出了一種基于特征選擇的LR-Bagging(基分類器為LR的Bagging算法)的改進算法。該算法的精髓在于對每一個LR進行訓(xùn)練的特征變量需要經(jīng)過有放回的隨機抽樣產(chǎn)生。如此改進的目的在于通過減少或改變變量提高基LR分類器的多樣性,減少變量間的多重共線性與過擬合問題,同時還能較好保留LR與Bagging集成學(xué)習(xí)的優(yōu)點。

            (Area Under Curve)被定義為ROC曲線下的面積,它的取值范圍介于0.5到1之間,是比較分類器間分類效果優(yōu)劣的評價標準。越大,我們認為模型的分類效果越好。一般情況下,,隨著循環(huán)次數(shù)的增加,模型提取的數(shù)據(jù)信息量也會不斷增加,最后達到峰值,所以我們通??梢哉J為組合模型的效果趨于先不斷加強后保持穩(wěn)定的過程。因此,我們把迭代的停止條件的設(shè)置為是合理的。



          上一頁 1 2 下一頁

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();