一種脫機手寫簽名認證方法
1 引言
手寫簽名認證方法屬于生物測定技術(shù)。簽名認證與其他生物測定技術(shù)相比,具有難以模仿、區(qū)分性較高、尊重隱私權(quán)、信息獲取高效等優(yōu)點,在特征的可搜集性、人體傷害可接受性和魯棒性方面都很突出,具有廣闊的應(yīng)用前景。但與其他生物測定方法相比,手寫簽名認證的識別率并不是很高,尤其是脫機中文手寫簽名認證。因為在脫機簽名認證中,丟失了書寫過程中的動態(tài)信息,使可利用的信息減少,增加了鑒別的難度。另外,有些高超的偽造簽名模仿得惟妙惟肖,有時即使是人類專家進行鑒定,識別率也可能會很低。這里針對脫機中文簽名,提出一種主成分特征提取和徑向基神經(jīng)網(wǎng)絡(luò)相結(jié)合的脫機手寫簽名認證方法。
2 主成分特征提取
假設(shè)x是一個N×1的隨機向量,即x的每個元素xi都是一個隨機變量。x的均值可用L個樣本向量估計:
而其協(xié)方差矩陣可由式(2)估計:
協(xié)方差矩陣是N×N的實對稱矩陣。對角元素是各個隨機變量的方差,非對角元素是它們的協(xié)方差。用矩陣A定義一個線性變換,它可由任意向量x通過式(3)得一個新向量y:
式中,A的行向量就是Cx的特征向量。
這里為了方便,對這些行向量按使得其對應(yīng)的特征值遞減的順序排列。變換后的向量y是具有零均值的隨機向量,其協(xié)方差矩陣與x的協(xié)方差矩陣的關(guān)系為:
由于A的行向量是Cx的特征向量,所以Cy是對角陣且其對角元素為Cx的特征值。于是:
從而λk也是Cy的特征值。因為Cy的非對角元素都是零,所以y個元素之間都是不相關(guān)的。于是線性變換A去掉了變量間的相關(guān)性。此外,λk是第k個變換后的變量yk的方差??赏ㄟ^略去對應(yīng)于較小特征值的一個或多個特征向量給y降維。令B為M×N的矩陣(MN),B是通過丟棄A的下面N-M行,并假定m=0構(gòu)成的,這樣,變換向量變小(即成為M×1維):
MSE只是與被舍棄的特征向量對應(yīng)的特征值之和。通常,特征值幅度差別很大,可忽略其中一些較小值而不會引起很大誤差。
進行模式分類時.理論上可將一幅MxN圖像的M×N個灰度特征作為分類依據(jù),但這樣會引起算法運算時間過長而失去意義,系統(tǒng)也因此崩潰。如何對這M×N個灰度特征進行主要特征提取,用提取出的k個灰度特征表征該圖像而使算法不會引起很大誤差。根據(jù)以上論述得知,這樣做可行。
對一幅M×N的簽名罔像,首先將圖像進行局部區(qū)域劃分,即將圖像劃分成4×4或者8×8的小塊,這樣一幅圖像就被劃分成L個小塊,即:
然后將每一個小塊的16(或64)個灰度值看成一個N×1的隨機變量.假設(shè)x是一個N×1的隨機向量,x的每一個元素都是用上面的一個小塊的16(或64)個灰度值構(gòu)成的隨機變量。實際x是一個16(或64)×L的矩陣,x的協(xié)方差矩陣由式(10)估計:
通過求得Cx的特征值來表征圖像的灰度主成分特征。將求得的特征值與先前的M×N個灰度特征相比,已明顯減少。這里取前10個最大的特征值作為特征分類依據(jù),由于后面的特征值很小,對其忽略不會引起太大誤差。
3 徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)及其分類器設(shè)計
徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)RBFNN(Radial Basis FunctionNeural Network)起源于數(shù)值分析中的多變量插值的徑向基函數(shù),它不僅具有任意精度的泛函逼近能力和最優(yōu)泛函逼近特性,而且具有較快的收斂速度。這里利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)構(gòu)成一個分類器實現(xiàn)簽名真?zhèn)蔚恼J證采用高斯核函數(shù)作為徑向基函數(shù),形式為:
式中,Zi是核函數(shù)的中心,δi為核函數(shù)的寬度,可控制基函數(shù)的徑向作用范圍,即方差。
而第i個隱結(jié)點的輸出定義為:
式中,wi是第i個隱結(jié)點到輸出層結(jié)點的權(quán)值,θ是輸出層結(jié)點的閾值。
一般常利用K均值聚類算法確定各基函數(shù)中心及相應(yīng)的方差,網(wǎng)絡(luò)權(quán)值的確定用局部梯度下降法修正。由于K均值聚類方法要事先給出聚類個數(shù)K,且聚類結(jié)果對K 值大小都很敏感,不同K值的聚類學(xué)習(xí)結(jié)果往往大相徑庭,因此,如何確定K值是一個難題。這里不采用上述的K均值聚類方法,而采用文獻[4]中的一種根據(jù)相似性閾值和最小距離原則的簡單聚類方法確定RBF網(wǎng)絡(luò)的中心。其主要步驟為:
(1)設(shè)待分類的模式集為{x1,x2…xn},選定類內(nèi)距離門限T;
(2)seed=RandomSelect(x);∥從對象集合x中,任選一對象Seed;
(3)Dist1,2=Compute Distance(seed,x2);∥計算下一模式特征矢量x2到Seed的距離;
(4)若Dist1,2>T,則建立新的一類ω2,其中心Z2=x2,若Dist1,2≤T,則x2∈ω1;
(5)假設(shè)已有聚類中心Z1?Z2…Zk,計算尚未確定類別的特征矢量xi到各聚類中心Zj(j=1,2…,k)的距離dij。如果dij>T,則 xi作為新的一類ωk+1的中心,Zk+1=xi,否則,如果dij=mindij,則判斷xi∈ωg,檢查是否所有的模式都劃分完類別,如都劃分完則結(jié)束,否則返同(5),
上述算法采用規(guī)格化的Euclidean計算公式度量兩個對象間的距離。具體公式定義如下:
在包含有N個對象的m維單位空間(各屬性取值均采用規(guī)格化處理)中,對象間的平均距離為
。對象間的平均距離與對象的個數(shù)及維數(shù)有關(guān)。在一定空間內(nèi),待分類的對象個數(shù)越少,各對象的維數(shù)越大,各對象間的距離就越大;反之,對象數(shù)量越大,各對象的維數(shù)越小,則各對象間的距離就越小。
在包含有N個對象的m維單位空間(各屬性取值均采用規(guī)格化處理)中,對象間的平均距離為以此為標(biāo)準(zhǔn),并按照“各聚類中對象問的距離不應(yīng)超過此標(biāo)準(zhǔn),各聚類間距離不應(yīng)低于此標(biāo)準(zhǔn)”的規(guī)則進行聚類學(xué)習(xí)。采用此方法得到的聚類類別數(shù)即為將要確定的隱層神經(jīng)元數(shù)。
整個RBF網(wǎng)絡(luò)的學(xué)習(xí)步驟為:
(1)設(shè)由上述聚類算法得到的RBF網(wǎng)絡(luò)隱層單元數(shù)為K,最大允許誤差ε,置所有可調(diào)參數(shù)(權(quán))為均勻分布的較小數(shù)(0~1或-1~1之間的隨機數(shù))。置初始誤差E為0,學(xué)習(xí)率η為0~1之間的小數(shù)。網(wǎng)絡(luò)訓(xùn)練后達到的精度Emin為一個正小數(shù)。
(2)采用上面根據(jù)相似性閾值和最小距離原則的簡單聚類方法確定基函數(shù)的中心Zi及δi方差,
(3)按梯度下降法調(diào)整網(wǎng)絡(luò)權(quán)值W直至誤差Eε,才結(jié)束。
4 實驗結(jié)果
徑向基神經(jīng)網(wǎng)絡(luò)由主成分特征提取出的10特征值作為輸入節(jié)點,而隱含層節(jié)點個數(shù)則根據(jù)每組訓(xùn)練樣本的不同(參見上述算法)確定,輸出層只有一個神經(jīng)元,該神經(jīng)元的輸出就是簽名圖像的對應(yīng)分類(真假兩類)。
實驗中共采集11個人的660個簽名。每人有30個真簽名和其他人模仿的30個假簽名。圖1和圖2是部分訓(xùn)練和測試樣本,圖1和圖2的前兩個簽名為作者簽名,其他為假冒簽名。
在每個人的60個簽名中,42個簽名(其中真簽名21個,假簽名21個)作為訓(xùn)練樣本,剩下的18個真假簽名作為測試樣本,因為有11個人的11組簽名,所以認證工作也分成11次,即1次進行1個人訓(xùn)練簽名樣本的訓(xùn)練和測試樣本的測試。把這些樣本送入RBF神經(jīng)網(wǎng)絡(luò)進行分類驗證,實驗結(jié)果見表1:
5 結(jié)論
提出一種基于主成分特征提取和徑向基神經(jīng)網(wǎng)絡(luò)相結(jié)合的脫機手寫簽名認證方法。首先為了減少運算量,對經(jīng)過預(yù)處理的簽名灰度圖像進行降維,即采用主成分特征提取的方法降低圖像維數(shù),同時過濾掉高頻干擾信號,突出簽名的主要特征,得到適合計算機識別的低維圖像,然后在簽名的分類認證中,基于徑向基神經(jīng)網(wǎng)絡(luò)的驗證方法可以在合理的時間內(nèi),以較少的主成分個數(shù)得到較好的識別效果。因為國內(nèi)尚未出現(xiàn)統(tǒng)一的簽名數(shù)據(jù)庫,實驗在自行采集的小型簽名數(shù)據(jù)樣本進行,對更大型的數(shù)據(jù)庫的認證識別是今后需做的工作。
評論