基于DPP的自動(dòng)音符切分識(shí)別研究
摘要:基于內(nèi)容的音樂分析是計(jì)算機(jī)音樂智能處理領(lǐng)域的重要分支,其中音符的分割和識(shí)別是關(guān)鍵技術(shù)之一。本文首先根據(jù)音級(jí)輪廓特征(PCP),對(duì)音樂進(jìn)行特征提取,將幀集通過行列式點(diǎn)過程(DPP)進(jìn)行建模,最后根據(jù)最大后驗(yàn)概率估計(jì)(MAP)選出幀子集,從而實(shí)現(xiàn)音符的分割。DPP將復(fù)雜的概率計(jì)算轉(zhuǎn)換為簡(jiǎn)單的行列式計(jì)算,減少了計(jì)算量。在鋼琴音樂片段多音符的的識(shí)別中,得到了67.3%的正確率,解決了多音符的切分識(shí)別難題。
本文引用地址:http://www.ex-cimer.com/article/201604/290272.htm1 引言
對(duì)音符進(jìn)行識(shí)別是音樂信號(hào)分析處理領(lǐng)域中重要的研究?jī)?nèi)容。音符識(shí)別技術(shù)在音樂數(shù)據(jù)庫(kù)的建立、管理和索引中具有重要的應(yīng)用價(jià)值,如何準(zhǔn)確地進(jìn)行音符分割是檢索系統(tǒng)中較困難的問題[1]。音符識(shí)別技術(shù)可以便捷地實(shí)現(xiàn)樂譜的計(jì)算機(jī)錄入,在音樂內(nèi)容檢索、計(jì)算機(jī)輔助鋼琴教學(xué)、音樂作品數(shù)字化等領(lǐng)域具有廣闊的應(yīng)用前景。隨著計(jì)算機(jī)多媒體技術(shù)、數(shù)字信號(hào)處理技術(shù)等不斷發(fā)展,越來越多的音樂作品進(jìn)入數(shù)字化的軌道,基于計(jì)算機(jī)的音樂識(shí)別、樂譜跟蹤、音樂分類等一系列課題也被越來越多的學(xué)者關(guān)注?,F(xiàn)有音符分割的方法大多是依據(jù)能量分割。文獻(xiàn)[2]提出了使用聲音的頻譜參數(shù),利用計(jì)算音符的自相似性進(jìn)行音符分割。文獻(xiàn)[3]憑借能量特征確定哼唱的起點(diǎn)和終點(diǎn),通過設(shè)定動(dòng)態(tài)門限的方法實(shí)現(xiàn)音符分割。近些年,國(guó)內(nèi)學(xué)者的研究主要集中在和弦的識(shí)別以及單音符的識(shí)別上,對(duì)于多音符的識(shí)別較為欠缺。本文將運(yùn)用DPP識(shí)別模型,對(duì)多音符進(jìn)行分割識(shí)別。
行列式點(diǎn)過程模型(DPP)在圖片分割、文本摘要和商品推薦系統(tǒng)中都有成功的應(yīng)用。DPP將復(fù)雜的概率計(jì)算轉(zhuǎn)換成簡(jiǎn)單的行列式的計(jì)算,減少了計(jì)算量,提高了運(yùn)行速度,并且很好地解決了負(fù)相關(guān)的問題[4]。本文首先將音樂信號(hào)進(jìn)行PCP特征提取,在識(shí)別階段運(yùn)用DPP進(jìn)行建模,并用300段標(biāo)記好的訓(xùn)練集對(duì)模型參數(shù)進(jìn)行訓(xùn)練,從而完成音符的自動(dòng)分割識(shí)別。
2 DPP音符切分
2.1 PCP特征提取
音級(jí)輪廓特征(PCP)是音樂信息檢索中廣泛使用的一種信號(hào)特征。PCP將頻譜重建為音級(jí)譜,將音樂信號(hào)能量映射到12個(gè)音級(jí)上。
PCP特征計(jì)算:
第1步:分幀處理,將時(shí)域離散信號(hào)分為重疊的幀。
(1)
k表示頻率坐標(biāo),n表示短時(shí)傅里葉變換窗口的中心,w(m)為漢明窗。
第2步:頻譜映射,強(qiáng)XSTFT(k,n)映射為一個(gè)十二維的向量p(k),每維表征了一個(gè)半音級(jí)的強(qiáng)度。映射公式為:
(2)
其中,fref為參考頻率,fsr為采樣率。
第3步:將各個(gè)音級(jí)相對(duì)應(yīng)的頻率點(diǎn)的頻率值進(jìn)行累加,得到每個(gè)時(shí)間片段的各個(gè)PCP分量的值,公式如下:
(3)
其中p=0,1,…,11。PCP通過一個(gè)12維的向量來表示一個(gè)音級(jí),它反映了音符在每一個(gè)12半音音程中半音階刻度下的相對(duì)強(qiáng)度[5]。
2.2 行列式點(diǎn)過程模型
2.2.1 DPP概述
行列式點(diǎn)過程(DPP)是一種概率模型,它通過核矩陣的行列式來給出每一個(gè)子集的概率[6]。離散集上的點(diǎn)過程P是一個(gè)2γ上的一個(gè)概率測(cè)度,當(dāng)Y是P的一個(gè)隨機(jī)子集時(shí),P就被稱作行列式點(diǎn)過程:
(4)
其中K為邊緣概率核矩陣,K包含了計(jì)算A的概率的所有信息。Kij的值越大代表i和j越不可能同時(shí)發(fā)生,因此DPP適用于對(duì)突出差異性的集合進(jìn)行建模。從圖1可以看到,相比于獨(dú)立抽樣,DPP抽樣的點(diǎn)集覆蓋的信息更廣,全局性更好[7]。
2.2.2 模型的建立
K矩陣定義了一種邊緣概率,為了方便對(duì)真實(shí)數(shù)據(jù)進(jìn)行建模,通常采用L矩陣集來代替K,L定義了每一種子集概率,為最優(yōu)化提供了一個(gè)方便的表述。一個(gè)通過正定矩陣L定義的DPP如下:
(5)
其中,I為N乘N單位矩陣,為歸一化因子,K=(L+I)-1L。
對(duì)L進(jìn)行格萊姆分解[8]:
(6)
qi∈R+表示i幀的Q值,即為能量;φi∈Rn,||φi||2=1為i幀的標(biāo)準(zhǔn)特征向量,由i幀的PCP特征向量做歸一化得到。所以代表了i幀和j幀的相似度。
圖2為DPP的幾何描述,每一幀都由一個(gè)向量表示。圖a向量所圍成的面積即為幀i和幀j的聯(lián)合概率;圖b增加了幀j的Q值,聯(lián)合概率也增加了;圖c提高了幀i和幀j的相似度,聯(lián)合概率相應(yīng)地減小。
2.2.3 建立目標(biāo)函數(shù)
通過在條件行列式點(diǎn)過程模型中加入?yún)?shù),來實(shí)現(xiàn)有監(jiān)督的學(xué)習(xí)模型。對(duì)于訓(xùn)練集,輸入集合X為音樂每一個(gè)音符的一幀組成的點(diǎn)集,y(X)為該音樂內(nèi)所有備選的點(diǎn)集。所以在參數(shù)θ下,給定的輸入集X,輸出集Y的條件概率如下:
(7)
其中。
只要保證相似度特征矩陣是正定的,相似度特征向量φi(X)可任由期望的測(cè)量值構(gòu)成,也可以是無限維度的。我們用對(duì)數(shù)線性模型計(jì)算Q值:
(8)
其中fi(X)∈Rm為幀i表征Q值的特征向量,θ∈Rm為參數(shù)向量。
利用最大似然估計(jì)(MLE)建立目標(biāo)函數(shù):
(9)
最優(yōu)化L是基于一致性假設(shè)的。如果訓(xùn)練數(shù)據(jù)準(zhǔn)確地參數(shù)θ* 滿足條件行列式點(diǎn)過程分布,那么當(dāng)時(shí),學(xué)習(xí)到的參數(shù)。當(dāng)然現(xiàn)實(shí)中的數(shù)據(jù)不可能準(zhǔn)確地遵循任何確切的模型,但是最大似然近似依然能夠較好地矯正DPP產(chǎn)生合理的概率估計(jì),因?yàn)槭筁最大相當(dāng)于令訓(xùn)練數(shù)據(jù)的對(duì)數(shù)損耗最小。
本文利用下降梯度算法,來最優(yōu)化對(duì)數(shù)似然,L(θ)梯度如下:
(10)
2.2.4 最大后驗(yàn)概率估計(jì)(MAP)
我們需要用學(xué)習(xí)到的參數(shù)θ來預(yù)測(cè)測(cè)試集X,得到最終的點(diǎn)集Y。一種方法是從DPP條件分布中抽樣,這將需要立方的時(shí)間復(fù)雜度[9],本文將采用最大后驗(yàn)估計(jì)(MAP)來進(jìn)行預(yù)測(cè)。在約束條件下的YMAP定義如下:
(11)
其中cost(i)為幀i的能量,B為總能量的門限值,計(jì)算YMAP是NP困難問題[10],我們這里做兩個(gè)近似。第一,我們通過抽樣獲得大量的子集Y,然后通過約束條件選擇可能性最大的一個(gè);第二,注意到公式(11)為一個(gè)子模塊,我們可以用一個(gè)簡(jiǎn)單的貪婪算法來近似它。對(duì)于單調(diào)子模塊問題,這種算法有合理的近似保證[11-12]。
3 實(shí)驗(yàn)與結(jié)果分析
3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)
本文的實(shí)驗(yàn)環(huán)境為安裝有Matlab2010A 的PC 機(jī),在356首符合條件的鋼琴曲片段中,隨機(jī)選出300個(gè)音樂片段作為訓(xùn)練樣本數(shù)據(jù),其余的56個(gè)片段作為測(cè)試數(shù)據(jù)。訓(xùn)練、測(cè)試音樂片段的平均時(shí)間長(zhǎng)度為6.8s,平均多音音符15個(gè)。從訓(xùn)練模型庫(kù)中可以看出經(jīng)過300個(gè)音樂片段訓(xùn)練后得到的多音音符基本覆蓋了鋼琴88個(gè)單音所構(gòu)成的多音符組合。表1是幾種多音符系統(tǒng)的識(shí)別率(多音符中單音符數(shù)超過3)。
3.2 結(jié)果分析
本課題所研究的基于DPP的多音符識(shí)別系統(tǒng)其識(shí)別率提高了近5%。與時(shí)頻域、統(tǒng)計(jì)法等識(shí)別相比,基于DPP的模式識(shí)別法雖然需要對(duì)樣本進(jìn)行先期訓(xùn)練,但是由于DPP對(duì)多音符特征轉(zhuǎn)換較為精確的建模,為多音符的正確識(shí)別奠定了基礎(chǔ)。在模型建立過程中,對(duì)于相近多音符的建模是本課題識(shí)別率較低的原因之一。比如,對(duì)于多音符A1C2F2 和A1C3F3,在特征提取過程中,二者相差的只是C2和C3兩音符上的頻率帶能量差,而根據(jù)鋼琴十二平均律的物理特性,二者成倍頻關(guān)系,這就為PCP特征提取帶來極大的困難。
4 結(jié)束語(yǔ)
本文介紹了利用DPP模型對(duì)鋼琴曲進(jìn)行多音符自動(dòng)分割識(shí)別的初步研究結(jié)果。在運(yùn)用PCP特征的的基礎(chǔ)上,音符識(shí)別率達(dá)到了67.2%。但是,根據(jù)實(shí)驗(yàn)中出現(xiàn)的問題,本系統(tǒng)還存在諸多需進(jìn)一步研究改進(jìn)的地方。首先,在對(duì)多音符的建模時(shí),由于相近多音符的特征差異小,導(dǎo)致模型近似,出現(xiàn)誤識(shí)別,這就需要采用新的多音符特征;其次,DPP模型趨向于選擇差異性大的子集,所以對(duì)于短時(shí)有內(nèi)大量重復(fù)旋律的音樂,DPP的分割正確率并不理想。但是,DPP將復(fù)雜的概率計(jì)算轉(zhuǎn)換成簡(jiǎn)單的行列式計(jì)算,在計(jì)算速度上大大優(yōu)于MRF[13],在對(duì)海量音樂進(jìn)行分割識(shí)別時(shí),DPP的優(yōu)勢(shì)將更加明顯。
參考文獻(xiàn):
[1]Meek C.J,Birminghan W.P Can't Sing:A Comprehensive Error Model for Sung Music Queries[C]//Proc.ofISMIR’02.Paris,France:[s.n],2002
[2]曹建紅.基于哼唱的音樂檢索技術(shù)研究[D].南京:南京理工大學(xué),2009
[3]Foote,J.,Automatic Autio Segmentation using a Measure of Audio Novelty.In Proceeding of IEEE Intermational Conference on Multimedia and Expo,vol.i,pp.452-455,July 30,2000
[4]A. Kulesza and B. Taskar, Determinantal Point Processes for Machine Learning, Foundations and Trends in Machine Learning: Vol. 5, No 2-3, 2012
[5]王峰. 美爾音級(jí)輪廓特征在音樂和弦識(shí)別算法中的應(yīng)用研究[D]. 太原: 太原理工大學(xué), 2010
[6]Johansson. Determinantal processes with number variance saturation. Communications in
mathematical physics, 252(1):111–148, 2004
[7]Hough, M. Krishnapur, Y. Peres, and B. Vir_ag. Determinantal processes and independence. Probability Surveys, 3:206-229, 2006
[8]Kulesza and B. Taskar. Structured determinantal point processes. In Proc. NIPS, 2010
[9]A. Kulesza and B. Taskar. Learning Determinantal Point Processes. In Proc. UAI, 2011
[10]Ko, J. Lee, and M. Queyranne. An exact algorithm for maximum entropy sampling. Operations
Research, 43(4):684{691, 1995. ISSN 0030-364X
[11]Hui Lin and Jeff Bilmes. Multi-document summarization via budgeted maximization of submodular functions. In Proc. NAACL/HLT, 2010
[12]Krause and C. Guestrin. A note on the budgeted maximization of submodular functions.Technical Rep. No. CMU-CALD, 5:103, 2005
[13]Borodin. Determinantal Point Processes. arXiv:0911.1153, 2009
本文來源于中國(guó)科技期刊《電子產(chǎn)品世界》2016年第4期第28頁(yè),歡迎您寫論文時(shí)引用,并注明出處。
評(píng)論