基于Alpha-NMF的AD樣本分類及特異性基因選擇方法
摘要:由于基因表達(dá)譜數(shù)據(jù)的高噪聲、高維性、高冗余以及數(shù)據(jù)分布不均勻等特點(diǎn)使得在分析過程中仍然有很多挑戰(zhàn)性問題?;谠撃康?,將一種無監(jiān)督學(xué)習(xí)方法--非負(fù)矩陣分解方法,應(yīng)用到基因表達(dá)譜數(shù)據(jù)中,挖掘出與AD相關(guān)的信息基因。然而標(biāo)準(zhǔn)NMF算法其效率較低,并且在基因表達(dá)數(shù)據(jù)的應(yīng)用有效性低。為了適應(yīng)該領(lǐng)域的需求,采用了Alpha-NMF算法。該算法能夠有效的克服標(biāo)準(zhǔn)NMF算法的缺陷,獲得較好的實(shí)驗(yàn)結(jié)果。多次運(yùn)行Alpha-NMF算法,選取分類準(zhǔn)確率和穩(wěn)定性最優(yōu)的實(shí)驗(yàn)結(jié)果,對其集合基因設(shè)定一閾值,篩選出集合基因中大于該閾值的信息基因。最后通過基因功能分類以及生物功能結(jié)構(gòu)圖來驗(yàn)證所捉煉出的特異性基因的有用性和可靠性。
關(guān)鍵詞:無監(jiān)督學(xué)習(xí);阿爾茨海默病;非負(fù)矩陣分解(NMF);基因表達(dá)譜數(shù)據(jù);Alpha-NMF
阿爾茨海默病(Alzheimer disease,AD)是德國神經(jīng)病學(xué)家Alois Alzheimer于1907年首次對一位51歲的病人描述的,至今對AD的認(rèn)識和研究已經(jīng)進(jìn)行了100余年了。它是老年人中最常見的神經(jīng)退行性疾病之一,其臨床特點(diǎn)是隱襲起病,逐漸出現(xiàn)記憶力減退、認(rèn)知功能障礙、行為異常和社交障礙。65歲以上老年癡呆人群中超過55%的病例是阿爾茨海默病。隨著全球人口的老齡化,癡呆患病人數(shù)大量增加,阿爾茨海默病已經(jīng)成為人類共同面臨的嚴(yán)峻挑戰(zhàn)。
DNA微陣列技術(shù)能夠?qū)Υ罅康幕蜻M(jìn)行同步、快速測量,同時提供成千上萬條基因的表達(dá)水平,使得生物學(xué)家能夠在基因組層次上研究任何種類細(xì)胞在任意給定時間、任意給定條件下的基因表達(dá)模式。由于基因表達(dá)譜數(shù)據(jù)的高噪聲、高維性、高冗余以及數(shù)據(jù)分布不均勻等特點(diǎn)使得在分析過程中仍然有很多挑戰(zhàn)性問題。
非負(fù)矩陣分解(non-negative matrix factorization,NMF)方法由Lee和Seung在一篇關(guān)于無監(jiān)督學(xué)習(xí)的文章中提出的一種新的矩陣分解方法。該方法在矩陣分解過程中對矩陣元素進(jìn)行非負(fù)約束,在實(shí)際應(yīng)用中具有明確的物理意義。相比一些傳統(tǒng)的算法,NMF具有實(shí)現(xiàn)簡便,分解形式和分解結(jié)果可解釋性強(qiáng)等靖多優(yōu)點(diǎn)。NMF算法被提出后,隨著研究的不斷深入,為了適應(yīng)不同領(lǐng)域的要求,一些研究者設(shè)計(jì)了基于多種目標(biāo)函數(shù)的算法對標(biāo)準(zhǔn)NMF算法進(jìn)行改進(jìn)。目前,應(yīng)用比較頻繁的有釋疏非負(fù)矩陣分解(sparse non-negativematrix factorization,SNMF)、非平滑非負(fù)矩陣分解(non-smoothnon-negative matrix factorization,NSNMF)以及加權(quán)非負(fù)矩陣分解(weighted non-negative matrix factorization,WNMF)等。NMF已運(yùn)漸應(yīng)用于語音信號處理、模式識別、圖像分析等研究領(lǐng)域中,并且獲得了很好的效果。相信不久的將來,NMF能夠適應(yīng)于更多領(lǐng)域的需求。
1 非負(fù)矩陣分解算法原里
NMF理論上是利用非負(fù)約束條件來獲取數(shù)據(jù)表示的一種方法。NMF問題可以描述為:已知非負(fù)矩陣Vnxm,找到一個非負(fù)矩陣Wnxr和Hrxm一個非負(fù)矩陣,使得:
V≈WH (1)
此時矩陣V中的列向量可以近似地看作是非負(fù)矩陣W的列向量的非負(fù)線性組合,組合系數(shù)為hj的分量。因此矩陣W=(w1,…,wr)可以看成是對V進(jìn)行線性估計(jì)的一組基,而H則是V在基W上的非負(fù)投影系數(shù)。
1.1 基本NMF算法
根據(jù)NMF理論的數(shù)學(xué)模型,必須找到一個分解過程V≈WH,使得WH盡量逼近V,可以定義一個目標(biāo)函數(shù)來保證逼近的效果。目標(biāo)函數(shù)可以利用某些距離的測量來獲得,通常使用的目標(biāo)函數(shù)是歐式距離,即:
當(dāng)且僅當(dāng)V=WH時取最小值為0。因此NMF問題可以轉(zhuǎn)化為優(yōu)化問題用迭代方法交替求解W和H。雖然式(2)對于單獨(dú)的W和H來講均是凸函數(shù),但是同時對于W和H卻不是凸函數(shù),因此找剄一個全局最優(yōu)解是不太現(xiàn)實(shí)的,但可以尋找一個局都最優(yōu)解。NMF算法可以定義為如下優(yōu)化問題:最小化‖V-WH‖2,交替更新W,H。最簡單易行的更新方法就是梯度下降法,但是其收斂速度非常緩慢。更新規(guī)則如下:
定理1:在(3)迭代規(guī)則下,歐式距離‖V-WH‖2是單調(diào)不增的,如果當(dāng)W和H的值是固定的,‖V-WH‖2保持不變。
評論