數(shù)據(jù)挖掘技術(shù)在中醫(yī)證候?qū)W中的應(yīng)用
作者 / 周旭1 趙耀2 1. 河北醫(yī)科大學(xué) 基礎(chǔ)醫(yī)學(xué)院(河北 石家莊 050017) 2. 中國(guó)人民銀行石家莊中心支行(河北 石家莊 050000)
本文引用地址:http://www.ex-cimer.com/article/201803/377635.htm*基金項(xiàng)目:河北省中醫(yī)藥管理局科研計(jì)劃項(xiàng)目(編號(hào):2014012)。
周旭(1983-),女,碩士,講師,研究方向:數(shù)據(jù)挖掘。
摘要:中醫(yī)證候的研究工作仍然存在一定的困難,證候的規(guī)范化和證候診斷的量化是中醫(yī)發(fā)展必須解決的問(wèn)題。數(shù)據(jù)挖掘技術(shù)是一種高效的數(shù)據(jù)分析手段,其在中醫(yī)領(lǐng)域的研究也逐步走向熱門。使用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則和分類算法對(duì)早中期慢性腎衰竭的證候和癥狀進(jìn)行分析:首先對(duì)采集的癥狀和證候信息進(jìn)行數(shù)字特征化處理;然后對(duì)證候之間的關(guān)聯(lián)關(guān)系進(jìn)行研究,獲得了高支持度的四組證候組合;最后分類和預(yù)測(cè)癥狀和證候之間的辯證關(guān)系,得到了癥狀的規(guī)則集,并計(jì)算出其中的重要癥狀。實(shí)驗(yàn)證明,分類結(jié)果對(duì)早中期慢性腎衰竭的癥狀與證候的辯證論治具有重要的臨床指導(dǎo)意義。
0 引言
證候是醫(yī)師通過(guò)望、聞、問(wèn)、切來(lái)收集病人四診信息資料,運(yùn)用相關(guān)中醫(yī)理論,從整體上對(duì)疾病進(jìn)行分析,歸納、推理、判斷疾病的某一時(shí)點(diǎn)病理狀態(tài)綜合反映的認(rèn)識(shí)[1]。由于證候是一種非線性的復(fù)雜的臨床表現(xiàn),只有采用與證候復(fù)雜性相適應(yīng)的科學(xué)理論及思維方法對(duì)其進(jìn)行研究,才能揭示其科學(xué)內(nèi)涵[2]。運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)中醫(yī)證候的構(gòu)成特點(diǎn)及其規(guī)律進(jìn)行分析研究,將對(duì)中醫(yī)證候的辯證分析起到巨大的促進(jìn)作用。
1 數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘定義
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有趣模式和知識(shí)的過(guò)程。從廣義上說(shuō),數(shù)據(jù)挖掘是對(duì)數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)的一個(gè)過(guò)程[3]。數(shù)據(jù)挖掘作為一種通用技術(shù),可以應(yīng)用于任何類型的數(shù)據(jù),包括數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、web信息以及其他信息存儲(chǔ)數(shù)據(jù)庫(kù)和動(dòng)態(tài)的流入系統(tǒng)的數(shù)據(jù)等。
1.2 常用的數(shù)據(jù)挖掘算法
1.2.1 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)分析用于發(fā)現(xiàn)隱藏在數(shù)據(jù)集中的有意義的聯(lián)系,所發(fā)現(xiàn)的特征變量之間的聯(lián)系可以用關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集的形式表示。關(guān)聯(lián)規(guī)則挖掘作為一種重要的數(shù)據(jù)挖掘方法,已經(jīng)廣泛應(yīng)用于醫(yī)學(xué)、金融、互聯(lián)網(wǎng)等多個(gè)領(lǐng)域[4]。Agrawal等人[5]提出了最早的基于頻繁項(xiàng)集的經(jīng)典關(guān)聯(lián)規(guī)則Apriori算法。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則需要經(jīng)歷兩個(gè)步驟:①通過(guò)一種逐層搜索的迭代算法,檢索出支持度不低于某一預(yù)設(shè)閾值(支持度)的頻繁項(xiàng)集;②利用檢索出的頻繁項(xiàng)集構(gòu)建出強(qiáng)關(guān)聯(lián)規(guī)則(同時(shí)滿足最小支持度和最小置信度)。
1.2.2 分類
分類任務(wù)就是確定對(duì)象屬于哪個(gè)預(yù)定義的目標(biāo)類。分類問(wèn)題是一個(gè)普遍存在的問(wèn)題,已經(jīng)有大量應(yīng)用,包括目標(biāo)營(yíng)銷、性能預(yù)測(cè)、制造和醫(yī)療診斷等[6]。數(shù)據(jù)挖掘技術(shù)中比較成熟且應(yīng)用廣泛的分類算法有貝葉斯網(wǎng)絡(luò)、決策樹(shù)以及人工神經(jīng)網(wǎng)絡(luò)等。
貝葉斯方法最早起源于英國(guó)數(shù)學(xué)家托馬斯.貝葉斯在1763年所證明的一個(gè)關(guān)于貝葉斯定理的一個(gè)特例[7]。經(jīng)過(guò)多位統(tǒng)計(jì)學(xué)家的共同努力,貝葉斯統(tǒng)計(jì)在20世紀(jì)50年代之后逐步建立起來(lái),成為統(tǒng)計(jì)學(xué)中一個(gè)重要的組成部分[8-10]。從1763年到現(xiàn)在已有250多年的歷史,這期間,貝葉斯統(tǒng)計(jì)方法有了長(zhǎng)足的進(jìn)步[11]。
決策樹(shù)模型源于人工智能領(lǐng)域的機(jī)器學(xué)習(xí)技術(shù),用于實(shí)現(xiàn)數(shù)據(jù)的分類和預(yù)測(cè)。經(jīng)過(guò)多年發(fā)展,其核心算法已經(jīng)逐漸成熟,被各類智能決策系統(tǒng)所采納[12]。其中的C5.0算法作為C4.5算法的商業(yè)版本,通過(guò)對(duì)生成規(guī)則及算法精確度方面予以改進(jìn),獲得了更準(zhǔn)確的生成規(guī)則、更快的運(yùn)行速度以及更低的誤差率[13]。決策樹(shù)模型在中醫(yī)證候?qū)W和診斷學(xué)[14-15]等方面的應(yīng)用研究已經(jīng)較為成熟。
人工神經(jīng)網(wǎng)絡(luò)是20世紀(jì)80年代發(fā)展起來(lái)的一門由計(jì)算機(jī)、信息、工程、醫(yī)學(xué)、生物學(xué)、數(shù)學(xué)、物理學(xué)等多學(xué)科交叉的邊緣學(xué)科[16]。它包含輸入層、輸出層以及1個(gè)或幾個(gè)隱含層,各層中處理數(shù)據(jù)的節(jié)點(diǎn)稱為神經(jīng)元,信息處理是由神經(jīng)元之間的相互作用來(lái)實(shí)現(xiàn)的。腦與神經(jīng)科學(xué)、人工智能、計(jì)算機(jī)科學(xué)的深度融合與相互借鑒已成為近年來(lái)科學(xué)研究領(lǐng)域重要的國(guó)際趨勢(shì)[17]。
2 數(shù)據(jù)集的建立
2.1 數(shù)據(jù)采集
本文實(shí)驗(yàn)數(shù)據(jù)采自早中期慢性腎衰竭患者的病案。病案內(nèi)容包括患者姓名、性別、年齡、原發(fā)病、癥狀、體征、腎功能指標(biāo)、中醫(yī)證候、中藥處方等。本文摘取其中的癥狀和證候信息進(jìn)行數(shù)據(jù)挖掘的分析研究。共采集并錄入病案信息223條,其中記錄癥狀共76種,論治證候共16種。
2.2 數(shù)據(jù)特征化
針對(duì)要采用的數(shù)據(jù)挖掘算法,本文將每條數(shù)據(jù)記錄用布爾值的形式表示,如表1所示。
其中布爾值0和1表示病人是否具有這種癥狀或證候,0表示病人沒(méi)有此癥狀或證候,1表示病人具有此癥狀或證候。
按照上述方法建成癥狀和證候數(shù)據(jù)庫(kù),其中包括:包含所有癥狀的數(shù)據(jù)集,由專業(yè)教授診斷判別的證候數(shù)據(jù)集,統(tǒng)計(jì)癥狀和證候頻次的癥狀和證候計(jì)數(shù)數(shù)據(jù)集以及主要癥狀數(shù)據(jù)集和主要證候組合數(shù)據(jù)集。
3 關(guān)聯(lián)分析
本研究共納入癥狀16種,出現(xiàn)頻數(shù)在病案總條數(shù)10%以上的的證候有11種,分別是血瘀,脾腎氣虛,濕熱內(nèi)蘊(yùn),脾腎陽(yáng)虛,濕濁阻滯,風(fēng)濕,胃氣上逆,肝陽(yáng)上亢,肝腎陰虛,陰陽(yáng)兩虛,氣滯胃腸。
本文采用Apriori算法建模,對(duì)這11種主要的證候進(jìn)行關(guān)聯(lián)分析。結(jié)果見(jiàn)表2(由于篇幅限制,只摘取支持度30%以上的規(guī)則顯示)。
支持度是指所有前項(xiàng)證候同時(shí)出現(xiàn)的概率,置信度是在前項(xiàng)證候出現(xiàn)的前提下,后項(xiàng)證候同時(shí)出現(xiàn)的概率。結(jié)果顯示,血瘀單獨(dú)出現(xiàn)的幾率最高,達(dá)到98.21%;血瘀與脾腎氣虛同時(shí)出現(xiàn)的幾率高于60%;在此基礎(chǔ)上,再同時(shí)伴有濕濁阻滯或濕熱內(nèi)蘊(yùn)者均在30%左右,而兩者之和則高于60%,充分表明瘀阻、濕壅與脾腎氣虛為慢性腎衰竭虛實(shí)夾雜、本虛標(biāo)實(shí)的主要體現(xiàn)。
使用SPSS Clementine12.0中的網(wǎng)絡(luò)圖形建模,該模型可以直觀的體現(xiàn)11種高頻證候兩兩之間關(guān)聯(lián)關(guān)系,連接兩種證候之間的直線越粗,表明兩種證候同時(shí)出現(xiàn)在一個(gè)病案中的頻率越高。如圖1所示。
結(jié)合網(wǎng)絡(luò)關(guān)系圖及鏈接數(shù)據(jù)分析,強(qiáng)鏈接關(guān)系主要集中于血瘀、脾腎氣虛、濕熱內(nèi)蘊(yùn)、濕濁阻滯和脾腎陽(yáng)虛之間。其中,位于前三位的鏈接關(guān)系分別為血瘀與脾腎氣虛、濕熱內(nèi)蘊(yùn)、脾腎陽(yáng)虛之間,連接條數(shù)達(dá)389條,占所有連接條數(shù)的50%以上,表明血瘀為早中期慢性腎衰最重要的標(biāo)實(shí)證候;脾腎氣虛除與血瘀之外,與脾腎陽(yáng)虛、濕熱內(nèi)蘊(yùn)、濕濁阻滯之間的關(guān)系均較密切,故為本病最主要的本虛證候。
4 分類與預(yù)測(cè)
4.1 決策樹(shù)模型的建立
本文使用C5.0算法構(gòu)建決策樹(shù)模型。統(tǒng)計(jì)數(shù)據(jù)庫(kù)中患者癥狀出現(xiàn)的頻數(shù),從76個(gè)癥狀中篩選出出現(xiàn)次數(shù)10次以上的主要癥狀如畏寒、小便黃、腰酸痛、眼瞼、下肢水腫、舌紅、舌暗紅、寒熱不調(diào)、寐差、夜尿頻、大便干、雙目干澀、視物模糊、納差、大便粘膩、胃脘不適、口干咽干、關(guān)節(jié)疼痛、腿麻木脹痛、惡心、干嘔、四末厥冷、咽癢咽痛咳嗽有痰、耳鳴、腹脹、口苦、舌淡、后背沉重、小便量少、小便清長(zhǎng)、咽部異物感、潮熱、乳房脹痛、齒痕舌、舌淡暗、汗出、舌淡紅、皮膚瘙癢健忘、尿頻、大便溏、口淡等39個(gè)。使用這些主要癥狀參與建模,按其出現(xiàn)次數(shù)降序排列。
據(jù)前述關(guān)聯(lián)規(guī)則的結(jié)果,出現(xiàn)頻數(shù)較高的證候組合(支持度30%以上)共四個(gè),包括:①血瘀、脾腎氣虛;②血瘀、脾腎氣虛、脾腎陽(yáng)虛;③血瘀、脾腎氣虛、濕熱內(nèi)蘊(yùn);④血瘀、脾腎氣虛、濕濁阻滯。癥狀是疾病所反映的現(xiàn)象,它是判斷病種,辨別證候的主要依據(jù)。分別對(duì)這四種高頻證候組合及其對(duì)應(yīng)的癥狀進(jìn)行決策樹(shù)建模,每個(gè)組合分別獲得若干條癥狀的分類規(guī)則。組合1獲得的規(guī)則集如表3。
我們選取分類結(jié)果為真的規(guī)則集,這些規(guī)則集預(yù)測(cè)的結(jié)果就是證候組合為真。組合1(血瘀和脾腎氣虛)共獲得了8條判斷規(guī)則,前7條規(guī)則都可作為組合1的有效分類規(guī)則,而第8條規(guī)則中,分類特征的屬性都為0,在實(shí)際臨床應(yīng)用中不具備實(shí)際作用,將其忽略。組合2獲得3條有效分類規(guī)則;組合3獲得4條有效分類規(guī)則;組合4獲得3條有效分類規(guī)則。這些有效規(guī)則都可以獨(dú)立地的預(yù)測(cè)其對(duì)應(yīng)的證候組合,構(gòu)成規(guī)則的癥狀數(shù)量較少,可以簡(jiǎn)化診斷過(guò)程。
4.2 計(jì)算變量重要性
不同證候組合所對(duì)應(yīng)的癥狀規(guī)則不盡相同,基于對(duì)癥狀的信息熵的分析計(jì)算,提取每個(gè)組合其所對(duì)應(yīng)的重要癥狀,結(jié)果如表4,表中癥狀出現(xiàn)的順序按照重要性降序排列。
表中的癥狀是去除冗余癥狀之后的結(jié)果,剔除了不重要的癥狀,保留的癥狀是對(duì)證候組合的預(yù)測(cè)有重要貢獻(xiàn)的癥狀。重要度越高,表明此癥狀對(duì)目標(biāo)證候的預(yù)測(cè)影響程度越高;反之重要度越低,表明此癥狀對(duì)目標(biāo)證候的預(yù)測(cè)影響程度越小。
不同證候組合所對(duì)應(yīng)的預(yù)測(cè)癥狀不盡相同,通過(guò)分析發(fā)現(xiàn),四種最常見(jiàn)證候組合均可出現(xiàn)畏寒的臨床表現(xiàn),而每一種組合用于鑒別的重要癥狀則主要集中側(cè)重后背沉重、寒熱不調(diào)、尿頻、舌淡等臨床表現(xiàn)。
4.3 不同分類模型預(yù)測(cè)結(jié)果對(duì)比
本文對(duì)支持率較高的四種證候組合,采用三種常見(jiàn)的數(shù)據(jù)挖掘分類預(yù)測(cè)算法:C5.0決策樹(shù)、貝葉斯網(wǎng)絡(luò)以及人工神經(jīng)網(wǎng)絡(luò)對(duì)癥狀進(jìn)行分類預(yù)測(cè),對(duì)比分類準(zhǔn)確率如圖2。
三種分類算法中,貝葉斯網(wǎng)絡(luò)對(duì)本數(shù)據(jù)集的分類準(zhǔn)確率最高,在84.75%到96.41%之間。神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確率較低,在73.99到91.93%之間,而三種分類算法的平均準(zhǔn)確率都達(dá)到了82%以上,準(zhǔn)確率較為理想。
5 結(jié)論
本文首先構(gòu)建了一個(gè)基于Apriori算法的模型,進(jìn)行證候的關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)了在早中期慢性腎病患者中的四組高支持度證候組合,并且與中醫(yī)理論較為吻合,同時(shí)也為下一步的分類與預(yù)測(cè)工作提供數(shù)據(jù)支持。
其次針對(duì)較高支持度的四組證候組合以及患者出現(xiàn)的高頻癥狀采用C5.0算法進(jìn)行決策樹(shù)建模,以期得一些有意義的癥狀規(guī)則。結(jié)果顯示,這些規(guī)則集可以預(yù)測(cè)患者是否屬于某種證候組合,本文選取預(yù)測(cè)類別為“真”的規(guī)則集(可預(yù)測(cè)患者確實(shí)屬于某種證候組合)作為臨床診斷的參考。預(yù)測(cè)類別為“假”的規(guī)則集(預(yù)測(cè)患者不屬于某種證候組合)不具備臨床診斷意義,所以不予討論。同時(shí)計(jì)算出參與預(yù)測(cè)的癥狀的重要性,判別哪些癥狀對(duì)證候組合的預(yù)測(cè)結(jié)果具有重要意義,說(shuō)明這些癥狀在臨床診斷中值得關(guān)注。
最后分別使用使用貝葉斯網(wǎng)絡(luò),C5.0和神經(jīng)網(wǎng)絡(luò)三種分類算法對(duì)癥狀進(jìn)行建模,分析不同的分類算法分類預(yù)測(cè)的準(zhǔn)確率。貝葉斯網(wǎng)絡(luò)對(duì)四組證候組合的平均分類準(zhǔn)確率最高為89.80%;C5.0和其非常接近,也達(dá)到88.34%,說(shuō)明這兩種分類算法對(duì)本數(shù)據(jù)集中證候組合的分類預(yù)測(cè)都比較可靠。神經(jīng)網(wǎng)絡(luò)的的準(zhǔn)確率為82.85%,相較前兩種算法較低,但由于中醫(yī)數(shù)據(jù)集的樣本數(shù)量有限且主觀性較強(qiáng),獲得的準(zhǔn)確率達(dá)到百分之八十以上我們就可認(rèn)為是有效可行的分類預(yù)測(cè)算法。所以認(rèn)為這三種算法對(duì)于癥狀和證候的分類預(yù)測(cè)都是可行的,且以貝葉斯網(wǎng)絡(luò)和C5.0算法為更優(yōu),預(yù)測(cè)結(jié)果都可以作為臨床診斷的參考依據(jù)。
本文采用的算法都是數(shù)據(jù)挖掘中的經(jīng)典算法,并沒(méi)有對(duì)算法進(jìn)行優(yōu)化工作,對(duì)證候組合的提取以及癥狀的分類預(yù)測(cè)還需要大量的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行進(jìn)一步驗(yàn)證,算法的準(zhǔn)確率還需要進(jìn)一步提高,這些都是需要進(jìn)一步改進(jìn)的地方。
綜上所述,利用多種數(shù)據(jù)挖掘算法對(duì)早中期慢性腎病的癥狀與證候進(jìn)行逐漸深入的知識(shí)挖掘,是可行有效的,獲得的高支持度證候組合以及癥狀的分類預(yù)測(cè)規(guī)則對(duì)于臨床診斷也是有一定指導(dǎo)意義的。如何在算法上有更多突破,同時(shí)將更多新的算法引入到中醫(yī)研究中,以期提高挖掘的效率和準(zhǔn)確性,是我們下一步的研究方向。
參考文獻(xiàn):
[1]田金洲,王永炎,時(shí)晶,等.證候的概念及其屬性[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2005,28(5):6-8.
[2]孫安會(huì),袁肇凱,夏世靖.中醫(yī)證候系統(tǒng)生物學(xué)研究的現(xiàn)狀和展望.[J]中華中醫(yī)藥雜志,2016,31(1):200-204.
[3]JiaWeiHan,MichelineKamber, Jian Pei.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟曉峰,譯.北京:機(jī)械工業(yè)出版社.2012:243.
[4]Giannella C,Han Jiawei,Pei Jian,et al. Mining frequent patterns in data streams at multiple time granularities[J].Next GenerationData Mining,2006,35(1):61-84.
[5]AGRWAL R,SRIKAN R.Fast algorithms for mining association rules in large databases[C]//Proceedings of the 20th International Conference on Very Large Data Bases. San Francisco: MorganKaufmann Publishers,1994:487-499.
[6]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數(shù)據(jù)挖掘?qū)д?[M]. 范明,范宏建,譯.北京:人民郵電出版社。2011:92
[7]Bayes T. An essay towards solving a problem in the doctrine of chances [J]. London: Philosophical Transactions Royal Societv, 1763,53:370-418
[8]茆詩(shī)松.貝葉斯統(tǒng)計(jì)[M].北京:中國(guó)統(tǒng)計(jì)出版社,1999.
[9]P M Lee.Bayesian statistics: An Introduction[M]. New York: John Wiley & Sons, 2012.
[10]A Gelman,J Carlin,H Stern,et al.Bayesian Data Analysis[M].Boca Raton:CRC Press,2013.
[11]Efrou B.Bayes’ theorem in the 21st century[J].Science, 2013, 340(6137):1177-1178.
[12]N Robert,E John,M Gary.Handbook of statistical analysis and datamining applications[M].USA:Elservier,2009.
[13]熊平.數(shù)據(jù)挖掘算法與Clementine 實(shí)踐[M].北京:清華大學(xué)出版社,2011,26:116-118.
[14]張琪,周琳,陳亮,等.決策樹(shù)模型用于結(jié)核病治療方案的分類和預(yù)判[J].中華疾病控制,2015,19(5):510-513.
[15]陳瀟雨,馬利莊,胡義揚(yáng).基于決策樹(shù)方法的慢性乙型肝炎中醫(yī)證候分類[J].上海:中醫(yī)藥大學(xué)學(xué)報(bào),2013,27(1):40-43.
[16]B D Ripley.Pattern Recognition and Neural Networks. Cambridge: Cambridge University Press. 1996.
[17]曾毅,劉成林,譚鐵牛.類腦智能研究的回顧與展望[J].計(jì)算機(jī)學(xué)報(bào),2016,39(1):212-222.
本文來(lái)源于《電子產(chǎn)品世界》2018年第4期第56頁(yè),歡迎您寫論文時(shí)引用,并注明出處。
評(píng)論