了解優(yōu)勢與挑戰(zhàn) 打好“聲紋識別”這張牌
隨著科技的發(fā)展,尤其是生物科技的不斷發(fā)展并逐漸廣泛應(yīng)用,包括人臉、指紋、掌紋、聲紋等生物特征類證據(jù)已成為公安和司法機關(guān)破案偵查的重要證據(jù)之一,在熱播的《人民的名義》中,聲音就成了調(diào)查原漢東省檢察院反貪局局長陳海車禍案件的重要線索。
本文引用地址:http://www.ex-cimer.com/article/201707/361544.htm在眾多生物識別技術(shù)中,除了早已使用多年的指紋識別、虹膜識別,近期興起的人臉識別技術(shù)被用于公司打卡、軟件系統(tǒng)登錄、家庭或公共場所的安防等多個場景,而語音識別技術(shù)的用途更是廣泛,機器人、智能家居產(chǎn)品、無人車等等。
隨著相關(guān)算法的精進,以上生物識別技術(shù)的準確率已經(jīng)可以與人類相媲美。而在這些識別技術(shù)愈加成熟之時,越來越多的人將目光放在另外一種生物識別技術(shù)上——聲紋識別。
什么是聲紋識別技術(shù)?
聲紋識別,也稱作說話人識別,是一種通過聲音判別說話人身份的技術(shù)。人在講話時使用的發(fā)聲器官舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異,因而聲紋具有唯一性。
根據(jù)不同的應(yīng)用場景,聲紋識別可分為說話人辨識(SpeakerIdentification,SI)和說話人確認(SpeakerVerification,SV)。SI指的是我們有了一段待測的語音,需要將這段語音與我們已知的一個集合內(nèi)的一干說話人進行比對,選取最匹配的那個說話人,是一個1對多的判別問題;SV指的是我們有了一段未知的語音,緊接著判斷這段語音是否來源于這個目標用戶即可,是一個1對1的二分類問題。
聲紋識別的應(yīng)用及成果
在應(yīng)用上,聲紋識別更大的應(yīng)用前景在于安防領(lǐng)域,比如刑偵破案、門禁、銀行交易等等。此外,在智能家居等領(lǐng)域,為了安全,也為了更好的智能體驗,比如在人聲鼎沸情境中準確識別哪句話是主人下達的命令等,聲紋識別技術(shù)也就漸漸受到了重視。
當前,在聲紋識別需求漸增的情況下,專注于聲紋識別的企業(yè)也有不少,并已取得了不錯的成果。比如國外的Nuance、VoiceVault、Voice Biometrics、PhoneFactor,或是國內(nèi)的科大訊飛、中科信利、廈門天聰、上海電虹等公司。
以科大訊飛為例,此前,在錘子手機的發(fā)布會上,羅永浩成功的為科大訊飛做了一次PR,一時間,科大訊飛的語音識別技術(shù)受到了人們更多的關(guān)注。作為同屬于語音技術(shù)的“兄弟”,聲紋技術(shù)也是科大訊飛的關(guān)注領(lǐng)域,并已研究多年。在2015年,依托于聲紋識別、人臉識別技術(shù),科大訊飛構(gòu)建了業(yè)界首個統(tǒng)一生物認證系統(tǒng),用人臉識別補充聲紋識別的不穩(wěn)定性,進一步的提高了安全性,并在金融、保險等領(lǐng)域啟動了大規(guī)模的應(yīng)用推廣。
聲紋識別的優(yōu)勢與挑戰(zhàn)
聲紋識別的主要任務(wù)包括:語音信號處理、聲紋特征提取、聲紋建模、聲紋比對、判別決策等。
相對于其他生物識別技術(shù),在安全性上,聲紋識別的唯一性不說排第一,但也是名列前茅的,縱然模仿聲音類似,但也是能夠分辨的出來的。除了更高的安全指數(shù),與其他生物識別技術(shù)相比,聲紋識別還有著其他的優(yōu)勢 :
1、蘊含聲紋特征的語音獲取方便、自然;2、獲取語音的成本低廉,使用簡單,像麥克風、通訊設(shè)備等皆可;3、適合遠程身份確認;4、聲紋辨認和確認的算法復雜度低;5、配合一些其他措施,如通過語音識別進行內(nèi)容鑒別等,可以提高準確率;
不過,縱然有著這么多的優(yōu)勢,但在實際操作中,聲紋識別卻面臨著重大的挑戰(zhàn):
1、如何建立聲紋庫和特征 :從理論上講,聲紋的獲取是極其容易的,但這僅僅是針對國家相關(guān)機構(gòu),如目前聲紋庫最全的公安。對企業(yè)而言,所有的聲紋數(shù)據(jù)都需要他們自行采集,這是一件相當具有難度的任務(wù)。另外,在數(shù)據(jù)不全面的情形之下,聲紋特征的提取和建立也就受到了阻礙,從而就難以訓練聲紋識別的機器學習算法,以提高識別的準確率。
2、如何降低內(nèi)外環(huán)境對于聲紋的影響 :目前,人們對聲紋識別的要求已經(jīng)不僅僅滿足于靜態(tài)檢測,更多的是動態(tài)檢測。在外部環(huán)境中,首先,聲音是通過錄音設(shè)備進行采集的,不同的型號的錄音設(shè)備對語音都會造成一定程度上的畸變,同時由于背景環(huán)境和傳輸信道等的差異,對語音信息也會造成不同程度的損傷。這些情況的出現(xiàn)為聲紋識別增添了不少的問題。比如外部環(huán)境的影響,哪怕是如今發(fā)展較為完善、已經(jīng)實現(xiàn)落地的語音識別技術(shù),降噪以及去混響方面也依然是其運行中的一大難題。
此外,在內(nèi)部環(huán)境中,對于同一個用戶,即便采集到的兩段語音內(nèi)容都是相同的,但由于情緒、語速、疲勞程度等原因,語音都會有一些差異性。在這方面,小伙伴就曾做過實驗,以不同的嗓音、速度喚醒iPhone 7中的Siri,結(jié)果顯示,只有與提前錄制的語音同樣的嗓音、速度才能成功喚醒。
評論