本發明涉及基(ji)于音樂內容檢(jian)索領域,尤其涉及基(ji)于多特征音樂體載的分類方法及系(xi)統(tong)。
背景技術:
隨著音(yin)樂(le)(le)數據(ju)庫中(zhong)音(yin)樂(le)(le)數目(mu)的(de)(de)(de)(de)急(ji)劇增(zeng)加(jia),人們在海量的(de)(de)(de)(de)音(yin)樂(le)(le)信(xin)息中(zhong)快速獲得自己感興趣(qu)的(de)(de)(de)(de)音(yin)樂(le)(le)體裁(cai)或者對大數據(ju)音(yin)樂(le)(le)進行體裁(cai)分(fen)類(lei)(lei)(lei)(lei)變得越來越困難(nan),這就(jiu)導致(zhi)了基(ji)于音(yin)樂(le)(le)內容檢索技術的(de)(de)(de)(de)興起(qi)。音(yin)樂(le)(le)體裁(cai)的(de)(de)(de)(de)分(fen)類(lei)(lei)(lei)(lei)作(zuo)為(wei)音(yin)樂(le)(le)內容檢索技術中(zhong)重要的(de)(de)(de)(de)一環,其研究日益(yi)引起(qi)人們的(de)(de)(de)(de)重視。音(yin)樂(le)(le)體裁(cai)的(de)(de)(de)(de)分(fen)類(lei)(lei)(lei)(lei)實際(ji)上(shang)就(jiu)是(shi)音(yin)樂(le)(le)音(yin)頻的(de)(de)(de)(de)分(fen)類(lei)(lei)(lei)(lei),音(yin)樂(le)(le)的(de)(de)(de)(de)音(yin)頻是(shi)一個(ge)隨機(ji)的(de)(de)(de)(de)非(fei)平穩信(xin)號,音(yin)頻的(de)(de)(de)(de)非(fei)語義符(fu)號表示(shi)和(he)無結構化組(zu)織的(de)(de)(de)(de)特點(dian)增(zeng)加(jia)了體裁(cai)分(fen)類(lei)(lei)(lei)(lei)的(de)(de)(de)(de)難(nan)度,因此,如何提(ti)取(qu)音(yin)頻中(zhong)的(de)(de)(de)(de)結構化信(xin)息和(he)內容語義,使(shi)得無序的(de)(de)(de)(de)音(yin)頻數據(ju)變得有(you)序,是(shi)解決問題的(de)(de)(de)(de)關鍵。
音(yin)頻分類本質上是(shi)一個模式(shi)識別(bie)過程,包括特征(zheng)提取與分類兩個基本過程。在現(xian)有技術(shu)中,大多(duo)是(shi)基于頻域(yu)特征(zheng)梅爾倒(dao)頻譜系數(shu)或者(zhe)是(shi)小波域(yu)特征(zheng)對音(yin)樂(le)(le)題材進行分類的(de),并不(bu)能充分利(li)用音(yin)樂(le)(le)體裁的(de)特征(zheng),因(yin)此獲(huo)得的(de)分類效率(lv)并不(bu)是(shi)很高。
因此,現有技(ji)術(shu)中的技(ji)術(shu)缺陷是(shi):基于(yu)頻域(yu)特征(zheng)梅爾倒(dao)頻譜系數(shu)或者是(shi)小波域(yu)特征(zheng)對(dui)音樂題材進行分類(lei),對(dui)音樂體載(zai)特征(zheng)的提取不充(chong)分,導致分類(lei)效率低,分類(lei)識別精(jing)度(du)低,效果不理想(xiang)。
技術實現要素:
針對(dui)上述技術問題(ti),本發明提供一(yi)(yi)種基于多(duo)特征(zheng)(zheng)(zheng)音樂體載的(de)(de)分(fen)類方法(fa)及系(xi)統(tong),在提取每一(yi)(yi)幀頻域特征(zheng)(zheng)(zheng)梅爾倒頻譜(pu)系(xi)數(shu)(MFCC)的(de)(de)同時,也對(dui)每一(yi)(yi)幀信號做離散(san)小(xiao)波變換,提取小(xiao)波域特征(zheng)(zheng)(zheng);把頻域特征(zheng)(zheng)(zheng)和小(xiao)波特征(zheng)(zheng)(zheng)相結合計(ji)算(suan)其統(tong)計(ji)特征(zheng)(zheng)(zheng),這些統(tong)計(ji)特征(zheng)(zheng)(zheng)融(rong)合成一(yi)(yi)個(ge)多(duo)維的(de)(de)向量,通過Logistic回(hui)歸(gui)作為分(fen)類器(qi),對(dui)音樂體裁進行分(fen)類識(shi)別,取得了(le)較高的(de)(de)識(shi)別精度(du)和分(fen)類效果。
為解決(jue)上述技(ji)術(shu)問題(ti),本發(fa)明提供(gong)的(de)技(ji)術(shu)方案是:
第(di)一(yi)方(fang)面(mian),本發明提(ti)供(gong)一(yi)種基于多特(te)征音樂體載的分類方(fang)法(fa),包括(kuo):
步(bu)驟S1,獲(huo)取音(yin)樂體載中的(de)多(duo)幀(zhen)音(yin)頻(pin)(pin)信(xin)(xin)號(hao),提(ti)取每一幀(zhen)音(yin)頻(pin)(pin)信(xin)(xin)號(hao)頻(pin)(pin)譜的(de)多(duo)個梅爾倒頻(pin)(pin)譜系數,得到頻(pin)(pin)域特征;
步驟(zou)S2,對(dui)所述(shu)每一(yi)幀音頻信號做離(li)散小(xiao)波變換,提取小(xiao)波域特征;
步驟S3,將所(suo)述頻(pin)域特征(zheng)和所(suo)述小波特征(zheng)相結合計算,得到(dao)多個(ge)音樂體裁(cai)特征(zheng)值,形成統(tong)計特征(zheng)向量;
步驟(zou)S4,將所述統計(ji)特征向量輸入(ru)預先訓(xun)練好的Logistic回歸分類(lei)器,對(dui)音(yin)樂進行(xing)分類(lei)識別(bie)。
本發明基于多(duo)特征(zheng)(zheng)音(yin)(yin)樂體載的(de)分類方法,其技術方案為:獲取音(yin)(yin)樂體載中的(de)多(duo)幀音(yin)(yin)頻(pin)(pin)信(xin)(xin)號(hao),提取每(mei)(mei)一幀音(yin)(yin)頻(pin)(pin)信(xin)(xin)號(hao)頻(pin)(pin)譜的(de)多(duo)個(ge)梅爾倒頻(pin)(pin)譜系數,得(de)到(dao)頻(pin)(pin)域特征(zheng)(zheng);對所(suo)述每(mei)(mei)一幀音(yin)(yin)頻(pin)(pin)信(xin)(xin)號(hao)做離散小(xiao)波(bo)(bo)變換(huan),提取小(xiao)波(bo)(bo)域特征(zheng)(zheng);將所(suo)述頻(pin)(pin)域特征(zheng)(zheng)和所(suo)述小(xiao)波(bo)(bo)特征(zheng)(zheng)相結(jie)合計(ji)(ji)算,得(de)到(dao)多(duo)個(ge)音(yin)(yin)樂體裁特征(zheng)(zheng)值,形成統(tong)計(ji)(ji)特征(zheng)(zheng)向量;將所(suo)述統(tong)計(ji)(ji)特征(zheng)(zheng)向量輸入預(yu)先訓練好的(de)Logistic回歸分類器,對音(yin)(yin)樂進行(xing)分類識別。
本發明基(ji)于多(duo)(duo)特征(zheng)音(yin)樂體載的分(fen)類方法,在提(ti)取每一幀(zhen)(zhen)頻(pin)域特征(zheng)梅(mei)爾倒頻(pin)譜系數(shu)(MFCC)的同時,也對每一幀(zhen)(zhen)信(xin)號做離(li)散小波(bo)變換,提(ti)取小波(bo)域特征(zheng);把(ba)頻(pin)域特征(zheng)和小波(bo)特征(zheng)相結合計(ji)算其統計(ji)特征(zheng),這些統計(ji)特征(zheng)融(rong)合成(cheng)一個(ge)多(duo)(duo)維的向(xiang)量,通過Logistic回歸作(zuo)為分(fen)類器,對音(yin)樂體裁進行(xing)分(fen)類識別(bie),取得了較高的識別(bie)精度和分(fen)類效(xiao)果。
進一步(bu)地(di),所述步(bu)驟S1中,所述提取(qu)每一幀音(yin)頻信號(hao)的多個梅爾倒頻譜系數,具體(ti)為:
對每一幀(zhen)(zhen)音頻信號進行(xing)快速傅里葉(xie)變換,得到所(suo)述每一幀(zhen)(zhen)音頻信號的頻譜;
對所述每一(yi)幀(zhen)音頻(pin)信號的頻(pin)譜進行濾波,得到頻(pin)譜能量;
對所(suo)述(shu)頻譜(pu)能(neng)量取對數,進行離散(san)余弦變(bian)換,得到(dao)多維梅(mei)爾(er)倒(dao)頻譜(pu)系數。
進一步地(di),所述步驟S2中,所述提取小(xiao)波域特征(zheng),具體為(wei):
對每一幀(zhen)音頻(pin)信號進行(xing)離散(san)小波(bo)域變換,得到小波(bo)變換域;
根據所述小波(bo)變換域(yu)(yu),提取多維小波(bo)域(yu)(yu)特征。
進一(yi)步地,所述步驟S3中(zhong),所述多個音樂(le)體(ti)(ti)裁(cai)特征(zheng)值的構(gou)造(zao),具體(ti)(ti)為:
計(ji)算多個梅爾倒頻譜系數的平均(jun)值;
計算所(suo)述(shu)多幀(zhen)(zhen)信(xin)號的(de)能(neng)量(liang)(liang)平(ping)均(jun)值、方差(cha),計算總的(de)低能(neng)量(liang)(liang)幀(zhen)(zhen)的(de)能(neng)量(liang)(liang)數,所(suo)述(shu)低能(neng)量(liang)(liang)幀(zhen)(zhen)為能(neng)量(liang)(liang)小于平(ping)均(jun)能(neng)量(liang)(liang)0.5倍(bei)的(de)幀(zhen)(zhen);
計算所述多幀信號(hao)的質心、帶寬(kuan)、過零(ling)點的均(jun)值(zhi);
計算所述多幀信號(hao)的(de)基音(yin)變換率(lv)和等基音(yin)頻率(lv)比(bi)例(li);
將上述特征值組成的多維向量(liang),形成統計(ji)特征,所述統計(ji)特征作為所述Logistic回歸分類器的輸入。
進一步(bu)地,所述步(bu)驟(zou)S4中(zhong),所述統計特征向量的構(gou)成,具體為:
在每個(ge)統計(ji)特征上都乘以一個(ge)回歸系(xi)數(shu),得到統計(ji)特征向(xiang)量;
將所(suo)(suo)述統計(ji)特征向(xiang)量輸(shu)入(ru)所(suo)(suo)述預先訓(xun)練好的(de)Logistic回(hui)歸分(fen)類器,得(de)到一個范圍在(zai)0-1之(zhi)間(jian)的(de)數值,實現音樂(le)體載的(de)分(fen)類,所(suo)(suo)述Logistic回(hui)歸分(fen)類器是利用Sigmoid函數構成的(de)分(fen)類器。
第二方面(mian),本發明提供一(yi)種(zhong)基于(yu)多特(te)征音樂體載的分(fen)類系統,包括:
頻(pin)(pin)域(yu)特征(zheng)提取模(mo)塊,用于獲取音樂體載中的多幀(zhen)音頻(pin)(pin)信號,提取每一幀(zhen)音頻(pin)(pin)信號頻(pin)(pin)譜(pu)的多個梅爾倒頻(pin)(pin)譜(pu)系數,得到頻(pin)(pin)域(yu)特征(zheng);
小(xiao)波域特征提(ti)取(qu)模塊,用于對所述每一幀音頻信號(hao)做離散小(xiao)波變換,提(ti)取(qu)小(xiao)波域特征;
統計(ji)特(te)(te)征(zheng)(zheng)(zheng)向(xiang)(xiang)量(liang)生成模塊,用(yong)于將(jiang)所述頻域(yu)特(te)(te)征(zheng)(zheng)(zheng)和所述小波特(te)(te)征(zheng)(zheng)(zheng)相(xiang)結合計(ji)算,得到(dao)多(duo)個音樂體裁(cai)特(te)(te)征(zheng)(zheng)(zheng)值,形成統計(ji)特(te)(te)征(zheng)(zheng)(zheng)向(xiang)(xiang)量(liang);
音樂分類模塊,用于將所述統(tong)計(ji)特(te)征向量輸入預先訓(xun)練(lian)好的Logistic回歸分類器,對音樂進行分類識別。
本發(fa)明(ming)的基(ji)于(yu)多特(te)征(zheng)(zheng)(zheng)音(yin)(yin)(yin)樂(le)(le)體載的分類系統(tong)(tong),其技術方案(an)為(wei):先通(tong)過頻域(yu)(yu)特(te)征(zheng)(zheng)(zheng)提(ti)取(qu)模(mo)(mo)塊(kuai)(kuai),獲取(qu)音(yin)(yin)(yin)樂(le)(le)體載中的多幀音(yin)(yin)(yin)頻信號(hao),提(ti)取(qu)每(mei)一幀音(yin)(yin)(yin)頻信號(hao)頻譜(pu)的多個梅爾(er)倒頻譜(pu)系數(shu),得(de)到(dao)頻域(yu)(yu)特(te)征(zheng)(zheng)(zheng);然后通(tong)過小波(bo)域(yu)(yu)特(te)征(zheng)(zheng)(zheng)提(ti)取(qu)模(mo)(mo)塊(kuai)(kuai),對(dui)所述(shu)(shu)每(mei)一幀音(yin)(yin)(yin)頻信號(hao)做離散小波(bo)變(bian)換,提(ti)取(qu)小波(bo)域(yu)(yu)特(te)征(zheng)(zheng)(zheng);接著通(tong)過統(tong)(tong)計特(te)征(zheng)(zheng)(zheng)向(xiang)量生成模(mo)(mo)塊(kuai)(kuai),將所述(shu)(shu)頻域(yu)(yu)特(te)征(zheng)(zheng)(zheng)和所述(shu)(shu)小波(bo)特(te)征(zheng)(zheng)(zheng)相結合(he)計算,得(de)到(dao)多個音(yin)(yin)(yin)樂(le)(le)體裁特(te)征(zheng)(zheng)(zheng)值(zhi),形成統(tong)(tong)計特(te)征(zheng)(zheng)(zheng)向(xiang)量;最后通(tong)過音(yin)(yin)(yin)樂(le)(le)分類模(mo)(mo)塊(kuai)(kuai),將所述(shu)(shu)統(tong)(tong)計特(te)征(zheng)(zheng)(zheng)向(xiang)量輸(shu)入(ru)預先訓練好的Logistic回歸(gui)分類器(qi),對(dui)音(yin)(yin)(yin)樂(le)(le)進行(xing)分類識別(bie)。
本發明的基于多特(te)(te)征(zheng)(zheng)(zheng)音樂(le)體載(zai)的分(fen)(fen)類系統(tong),在提取每一幀(zhen)頻域(yu)特(te)(te)征(zheng)(zheng)(zheng)梅(mei)爾倒頻譜系數(MFCC)的同(tong)時(shi),也對每一幀(zhen)信號做(zuo)離散(san)小(xiao)波(bo)變換,提取小(xiao)波(bo)域(yu)特(te)(te)征(zheng)(zheng)(zheng);把頻域(yu)特(te)(te)征(zheng)(zheng)(zheng)和小(xiao)波(bo)特(te)(te)征(zheng)(zheng)(zheng)相(xiang)結合計(ji)算其統(tong)計(ji)特(te)(te)征(zheng)(zheng)(zheng),這(zhe)些統(tong)計(ji)特(te)(te)征(zheng)(zheng)(zheng)融(rong)合成一個多維的向量,通過(guo)Logistic回歸作為分(fen)(fen)類器(qi),對音樂(le)體裁進行分(fen)(fen)類識(shi)(shi)別,取得了較高(gao)的識(shi)(shi)別精度和分(fen)(fen)類效果。
進一步地(di),所(suo)述頻域(yu)特征(zheng)提(ti)取模塊中,包括(kuo)梅(mei)爾倒頻譜系數提(ti)取子(zi)模塊,用于:
對(dui)每一(yi)幀音(yin)頻(pin)信號進行快速(su)傅(fu)里(li)葉變換,得到所述每一(yi)幀音(yin)頻(pin)信號的頻(pin)譜;
對(dui)所(suo)述(shu)每一幀音頻(pin)信號的頻(pin)譜(pu)進行濾波,得到頻(pin)譜(pu)能(neng)量;
對所述頻(pin)譜能(neng)量(liang)取(qu)對數,進(jin)行離散余弦變換,得(de)到(dao)多維梅爾倒頻(pin)譜系數。進(jin)一步地,所述小波(bo)域特(te)征(zheng)提取(qu)模塊中,包括小波(bo)域特(te)征(zheng)提取(qu)子模塊,用于(yu):
對每(mei)一幀(zhen)音頻信號進(jin)行離散小波(bo)域變(bian)換(huan),得到小波(bo)變(bian)換(huan)域;
根據所述(shu)小波(bo)變換域,提取(qu)多維小波(bo)域特征(zheng)。
進一步地,所述統計特(te)征(zheng)向量生(sheng)成模塊中(zhong),包括特(te)征(zheng)值構造(zao)子模塊,用于(yu):
計算多個梅爾倒頻譜系(xi)數的平均值;
計(ji)算所述(shu)多幀信號的能(neng)(neng)量(liang)平均值、方差,計(ji)算總(zong)的低能(neng)(neng)量(liang)幀的能(neng)(neng)量(liang)數,所述(shu)低能(neng)(neng)量(liang)幀為能(neng)(neng)量(liang)小(xiao)于平均能(neng)(neng)量(liang)0.5倍的幀;
計算所述多(duo)幀信號(hao)的(de)質心、帶(dai)寬(kuan)、過零點的(de)均(jun)值;
計算所(suo)述多幀信號(hao)的基(ji)音變換率和等(deng)基(ji)音頻率比例;
將(jiang)上述特征(zheng)(zheng)值組(zu)成的(de)多維(wei)向(xiang)量,形成統計特征(zheng)(zheng),所述統計特征(zheng)(zheng)作為(wei)所述Logistic回歸分類器的(de)輸入。
進一步地,所(suo)述音樂分類模塊中,包(bao)括統計特征(zheng)構成子模塊,用于(yu):
在每個(ge)統計特征上都乘(cheng)以一個(ge)回歸系數,得到統計特征向量;
將所(suo)述(shu)(shu)統計(ji)特征(zheng)向量輸入所(suo)述(shu)(shu)預先訓練好(hao)的Logistic回(hui)歸分(fen)(fen)類(lei)器,得到一個范圍在(zai)0-1之間的數值,實現音樂體載的分(fen)(fen)類(lei),所(suo)述(shu)(shu)Logistic回(hui)歸分(fen)(fen)類(lei)器是(shi)利用Sigmoid函數構(gou)成的分(fen)(fen)類(lei)器。
附圖說明
為了(le)更清楚地說明(ming)本發明(ming)具(ju)體(ti)實施方(fang)式(shi)或現有(you)技術(shu)中(zhong)的技術(shu)方(fang)案,下面(mian)將對(dui)具(ju)體(ti)實施方(fang)式(shi)或現有(you)技術(shu)描述中(zhong)所(suo)需要(yao)使用的附圖作簡單地介紹(shao)。
圖(tu)1示出(chu)了本發明第(di)一實施例所提(ti)供的一種基于多特征(zheng)音樂體載(zai)的分(fen)類(lei)方法的流程(cheng)圖(tu);
圖2示出了本發明第一實(shi)施例所提供(gong)的(de)一種基于多特征音樂體載的(de)分類(lei)方(fang)法中(zhong)提取梅爾倒頻譜系數的(de)流程圖;
圖3示出了本發明第(di)一(yi)實施例(li)所提供的(de)一(yi)種基(ji)于多特(te)征(zheng)音樂體載的(de)分類方(fang)法中提取小波(bo)域特(te)征(zheng)的(de)流程圖;
圖4示(shi)出了本發(fa)明第一實施例所提供(gong)的一種(zhong)基于多特征(zheng)音樂體載的分(fen)類方法中歸(gui)一化自(zi)相關函數的示(shi)意圖;
圖5示出了本(ben)發明第一(yi)實施例所(suo)提供的一(yi)種(zhong)基于多特(te)征(zheng)音樂(le)體載的分類方法中的統計特(te)征(zheng)值向(xiang)量(liang)構成示意圖;
圖(tu)6示出(chu)了本發明第一實施例所提供的一種基(ji)于多特征音(yin)樂體載的分(fen)類方法中的Logistic回歸(gui)分(fen)類器示意(yi)圖(tu);
圖7示出了本發明第一(yi)實施例所提供的(de)一(yi)種基于多特征音樂體載(zai)的(de)分類方(fang)法中的(de)Sigmoid函數(shu)示意圖;
圖8示出了本發(fa)明第二實施例(li)所提供的一(yi)種基于多(duo)特(te)征音樂(le)體載的分類系統的示意圖。
具體實施方式
下(xia)面(mian)將(jiang)結合附圖對本(ben)發明(ming)(ming)技術方(fang)案的(de)實施(shi)例(li)進行詳細的(de)描述。以(yi)下(xia)實施(shi)例(li)僅用于更加清楚地(di)說明(ming)(ming)本(ben)發明(ming)(ming)的(de)技術方(fang)案,因此(ci)只是作為示例(li),而不(bu)能以(yi)此(ci)來限制(zhi)本(ben)發明(ming)(ming)的(de)保護范(fan)圍(wei)。
實施例一
圖(tu)(tu)1示出了(le)本(ben)發(fa)明(ming)第一實(shi)施例(li)所(suo)(suo)提供的一種基于多(duo)特征音樂(le)體載的分類(lei)方法的流(liu)程圖(tu)(tu);如(ru)圖(tu)(tu)1所(suo)(suo)示,本(ben)發(fa)明(ming)第一實(shi)施例(li)提供了(le)一種基于多(duo)特征音樂(le)體載的分類(lei)方法,包括:
步驟S1,獲取音樂(le)體載中的多幀音頻(pin)(pin)信號,提取每一幀音頻(pin)(pin)信號頻(pin)(pin)譜的多個梅(mei)爾倒頻(pin)(pin)譜系(xi)數,得到頻(pin)(pin)域(yu)特征;
步驟S2,對每一幀音頻信號(hao)做離散小波(bo)變(bian)換,提取小波(bo)域(yu)特征;
步驟S3,將頻(pin)域特征和小(xiao)波(bo)特征相(xiang)結合計算,得到(dao)多個音樂體(ti)裁特征值,形成(cheng)統計特征向量;
步驟S4,將(jiang)統計特征向量(liang)輸(shu)入預先訓練好的Logistic回歸分類器,對音樂進行分類識別(bie)。
本發(fa)明基于多(duo)(duo)特(te)(te)(te)征音(yin)(yin)樂(le)體載的分類(lei)(lei)方(fang)法,其(qi)技術方(fang)案為:獲取(qu)(qu)音(yin)(yin)樂(le)體載中的多(duo)(duo)幀(zhen)音(yin)(yin)頻(pin)信號,提取(qu)(qu)每(mei)一(yi)幀(zhen)音(yin)(yin)頻(pin)信號頻(pin)譜的多(duo)(duo)個(ge)梅爾倒頻(pin)譜系數(shu),得到頻(pin)域(yu)特(te)(te)(te)征;對每(mei)一(yi)幀(zhen)音(yin)(yin)頻(pin)信號做(zuo)離散小波(bo)變換(huan),提取(qu)(qu)小波(bo)域(yu)特(te)(te)(te)征;將(jiang)頻(pin)域(yu)特(te)(te)(te)征和小波(bo)特(te)(te)(te)征相(xiang)結合計(ji)算,得到多(duo)(duo)個(ge)音(yin)(yin)樂(le)體裁特(te)(te)(te)征值,形成(cheng)統計(ji)特(te)(te)(te)征向(xiang)(xiang)量;將(jiang)統計(ji)特(te)(te)(te)征向(xiang)(xiang)量輸(shu)入(ru)預先訓練好的Logistic回歸分類(lei)(lei)器(qi),對音(yin)(yin)樂(le)進行(xing)分類(lei)(lei)識別。
本發明基于(yu)多特(te)征(zheng)音樂體(ti)載的分類(lei)方法,在提(ti)取(qu)(qu)每一(yi)幀頻(pin)域特(te)征(zheng)梅爾倒頻(pin)譜系數(MFCC)的同時,也(ye)對每一(yi)幀信號做離散小波(bo)變換,提(ti)取(qu)(qu)小波(bo)域特(te)征(zheng);把(ba)頻(pin)域特(te)征(zheng)和小波(bo)特(te)征(zheng)相結合計(ji)算其(qi)統(tong)計(ji)特(te)征(zheng),這些統(tong)計(ji)特(te)征(zheng)融合成一(yi)個多維的向量,通過Logistic回歸(gui)作為分類(lei)器,對音樂體(ti)裁進行分類(lei)識(shi)別,取(qu)(qu)得了較高(gao)的識(shi)別精度(du)和分類(lei)效果。
參見圖2,步驟S1中(zhong),提取每一幀音(yin)頻(pin)信號的(de)多個梅爾倒頻(pin)譜系數(shu),具(ju)體(ti)為:
步驟S101,對(dui)每(mei)(mei)一幀音頻(pin)信號(hao)進行快速傅里葉變換(huan),得到每(mei)(mei)一幀音頻(pin)信號(hao)的頻(pin)譜;
步驟S102,對(dui)每一幀音(yin)頻(pin)信號的頻(pin)譜(pu)進行濾波(bo),得(de)到(dao)頻(pin)譜(pu)能量(liang);
步驟S103,對頻譜能量取對數,進(jin)行(xing)離散余(yu)弦變換,得(de)到多維梅爾倒(dao)頻譜系數。
提取每一幀音(yin)頻(pin)信號的多(duo)個梅爾倒頻(pin)譜系數(shu)過程:
首先,將每一幀音頻信號進(jin)行快速傅里葉變換,得到其頻譜;
然后,通(tong)過Mel濾波器組在頻域進行(xing)帶通(tong)濾波,并對沒個(ge)頻帶的能量疊加(jia)得到頻譜能量;
最后,將濾波(bo)器組的輸出能量取對數(shu),做(zuo)離散余(yu)弦(xian)變(bian)換,得到多個梅爾(er)倒頻(pin)譜系數(shu)。
計算公式如下:
其中(zhong),x(k)為(wei)頻譜能量,M為(wei)Mel濾波器個(ge)數,j為(wei)MFCC維數,本(ben)發明中(zhong)j取13。
其中,對信號(hao)進行快速傅里葉變換,具體過程如下:
1)、在(zai)進行快速傅里葉(xie)變換之前,要(yao)先(xian)將音(yin)頻信號(hao)s(n)通過(guo)高頻濾波器(qi)進行預強調,得到預強調后(hou)的訊號(hao),參見公(gong)式(2);
s2(n)s2(n)=s(n)-a*s(n-1) (2)
通(tong)過(guo)預強調(diao)處(chu)理(li)后的(de)信號(hao),可以消除發(fa)聲過(guo)程中聲帶和嘴唇的(de)效(xiao)應,來補償語音(yin)信號(hao)受(shou)到(dao)發(fa)音(yin)系統所壓抑的(de)高頻部分。
2)、然后(hou)再(zai)將信(xin)號進(jin)行分幀(zhen)處理,每(mei)一幀(zhen)的(de)長度是256,幀(zhen)重疊為96。
3)、接著將每一幀乘以(yi)漢(han)明(ming)窗,以(yi)增(zeng)加音框左端(duan)和右端(duan)的連續性。
4)、最后再進行快(kuai)速傅里葉變換,得(de)到音頻信號在頻譜上的能(neng)(neng)量分布,即(ji)頻譜能(neng)(neng)量。
經過(guo)(guo)快速傅(fu)里葉(xie)變換后(hou),還要進行離散余弦變換,具體的過(guo)(guo)程是:
1)、用(yong)一組Mel頻標上線性分布的(de)三(san)角窗(chuang)(chuang)濾波(bo)器(qi)(共24個三(san)角窗(chuang)(chuang)濾波(bo)器(qi)),對信號的(de)功(gong)率(lv)譜濾波(bo),每一個三(san)角窗(chuang)(chuang)濾波(bo)器(qi)覆蓋(gai)的(de)范圍都近似于人耳的(de)一個臨界帶寬,以此(ci)來(lai)模擬人耳的(de)掩(yan)蔽效應;
2)、對三角窗濾波器組的輸(shu)出(chu)求取(qu)對數,得到近似(si)于同態(tai)變換的結果;
3)、最后進行離散(san)余(yu)弦變換,去除(chu)各維信(xin)號(hao)之(zhi)間的(de)相(xiang)關性,將(jiang)信(xin)號(hao)映射到低維空間,根據離散(san)余(yu)弦變換提取13維梅爾倒(dao)頻譜(pu)系數(shu),這樣就得到了梅爾倒(dao)頻譜(pu)系數(shu)。
優選地,由于MFCC是從每(mei)個短(duan)時音(yin)頻(pin)幀(zhen)中提(ti)取出來(lai)(lai)的(de)(de),它們主要反(fan)映(ying)(ying)的(de)(de)是音(yin)頻(pin)在很短(duan)時間內的(de)(de)靜(jing)態特(te)征(zheng),音(yin)頻(pin)信號的(de)(de)動態特(te)征(zheng)可(ke)以(yi)用(yong)這(zhe)些靜(jing)態特(te)征(zheng)的(de)(de)差(cha)分來(lai)(lai)描(miao)述(shu),把(ba)前后相(xiang)(xiang)鄰幀(zhen)的(de)(de)MFCC特(te)征(zheng)相(xiang)(xiang)減,就得到一階差(cha)分MFCC系(xi)數(shu),它可(ke)以(yi)反(fan)映(ying)(ying)這(zhe)個音(yin)頻(pin)的(de)(de)特(te)征(zheng)向量空間,能(neng)夠相(xiang)(xiang)互彌補,很大程度上可(ke)以(yi)提(ti)高改善系(xi)統(tong)的(de)(de)識別性能(neng)。本發明(ming)中,把(ba)13維MFCC系(xi)數(shu)及13維一階差(cha)分MFCC系(xi)數(shu)共(gong)同(tong)作(zuo)為(wei)音(yin)頻(pin)的(de)(de)頻(pin)域特(te)征(zheng)。
參建圖3,步(bu)驟S2中,提取小波域(yu)特征,具(ju)體為:
步驟S201,對每一幀音頻(pin)信號進行離散(san)小波域(yu)變換,得到小波變換域(yu);
步驟S202,根據小波變(bian)換域,提(ti)取多維(wei)小波域特征(zheng)。
小(xiao)波分(fen)(fen)析(xi)(xi)方法(fa)是一種窗(chuang)口大小(xiao)固定但其(qi)形(xing)狀可(ke)改變,時(shi)間(jian)窗(chuang)和頻(pin)率(lv)窗(chuang)都可(ke)改變的(de)(de)時(shi)頻(pin)局(ju)部化分(fen)(fen)析(xi)(xi)方法(fa),即在低頻(pin)部分(fen)(fen)具有較高的(de)(de)頻(pin)率(lv)分(fen)(fen)辨(bian)率(lv)和較低的(de)(de)時(shi)間(jian)分(fen)(fen)辨(bian)率(lv),在高頻(pin)部分(fen)(fen)具有較高的(de)(de)時(shi)間(jian)分(fen)(fen)辨(bian)率(lv)和較低的(de)(de)頻(pin)率(lv)分(fen)(fen)辨(bian)率(lv)。正是這種特性,使(shi)小(xiao)波變換具有對(dui)信號的(de)(de)自(zi)適(shi)應(ying)性。
音頻(pin)(pin)(pin)(pin)信(xin)(xin)(xin)號(hao)是一種(zhong)頻(pin)(pin)(pin)(pin)率(lv)隨(sui)時間改變而改變的振動波形信(xin)(xin)(xin)號(hao),屬于非平穩信(xin)(xin)(xin)號(hao),因此需要從音頻(pin)(pin)(pin)(pin)信(xin)(xin)(xin)號(hao)中(zhong)同時獲得時間和頻(pin)(pin)(pin)(pin)率(lv)信(xin)(xin)(xin)息。小(xiao)波交換(huan)(huan)(huan)能夠(gou)同時提取時域和頻(pin)(pin)(pin)(pin)域的信(xin)(xin)(xin)息,因此可(ke)以作為傅里葉(xie)變換(huan)(huan)(huan)的一種(zhong)替(ti)代(dai)方法,并且能夠(gou)克(ke)服傅里葉(xie)變換(huan)(huan)(huan)的局(ju)限性。音頻(pin)(pin)(pin)(pin)信(xin)(xin)(xin)號(hao)在計(ji)算機(ji)上實(shi)現時必須加以離散(san)化,因此考慮離散(san)小(xiao)波變換(huan)(huan)(huan)。離散(san)小(xiao)波變換(huan)(huan)(huan)定義如下:
其中Ψ(·)叫(jiao)做母小波,x(k)為(wei)采樣信號,W(j,k)為(wei)離(li)散化小波變換系數。
在信(xin)(xin)(xin)號(hao)(hao)的(de)(de)多分(fen)(fen)(fen)辨(bian)分(fen)(fen)(fen)解(jie)過程(cheng)中,首先(xian)將原(yuan)(yuan)始(shi)信(xin)(xin)(xin)號(hao)(hao)S分(fen)(fen)(fen)解(jie)以后,其系(xi)數(shu)(shu)分(fen)(fen)(fen)為低頻(pin)(pin)(pin)系(xi)數(shu)(shu)向(xiang)(xiang)量(liang)(liang)CA1和高頻(pin)(pin)(pin)系(xi)數(shu)(shu)向(xiang)(xiang)量(liang)(liang)CD1,向(xiang)(xiang)量(liang)(liang)CA1由(you)信(xin)(xin)(xin)號(hao)(hao)S與低通分(fen)(fen)(fen)解(jie)濾波器卷積運算得(de)到(dao),向(xiang)(xiang)量(liang)(liang)CD1由(you)信(xin)(xin)(xin)號(hao)(hao)S和高通分(fen)(fen)(fen)解(jie)濾波器卷積運算得(de)到(dao);用同樣的(de)(de)方法把低頻(pin)(pin)(pin)系(xi)數(shu)(shu)向(xiang)(xiang)量(liang)(liang)CA1分(fen)(fen)(fen)解(jie)為低頻(pin)(pin)(pin)系(xi)數(shu)(shu)CA2和高頻(pin)(pin)(pin)系(xi)數(shu)(shu)向(xiang)(xiang)量(liang)(liang)CD2;依(yi)次類推(tui),可以對信(xin)(xin)(xin)號(hao)(hao)進(jin)行多級分(fen)(fen)(fen)解(jie)。低頻(pin)(pin)(pin)部分(fen)(fen)(fen)表(biao)征(zheng)信(xin)(xin)(xin)號(hao)(hao)的(de)(de)本身特征(zheng),而高頻(pin)(pin)(pin)部分(fen)(fen)(fen)表(biao)征(zheng)信(xin)(xin)(xin)號(hao)(hao)的(de)(de)細微差(cha)別(bie)(bie),如(ru)果只保(bao)(bao)留低頻(pin)(pin)(pin)信(xin)(xin)(xin)號(hao)(hao),仍可以辨(bian)別(bie)(bie)出說(shuo)話的(de)(de)內容,但(dan)可能不太容易辨(bian)別(bie)(bie)說(shuo)話人。但(dan)如(ru)果去除了低頻(pin)(pin)(pin)部分(fen)(fen)(fen),就(jiu)只能聽到(dao)一些(xie)噪聲圈。因此(ci),經過小波變(bian)換后,可只保(bao)(bao)留信(xin)(xin)(xin)號(hao)(hao)的(de)(de)低頻(pin)(pin)(pin)部分(fen)(fen)(fen),即信(xin)(xin)(xin)號(hao)(hao)的(de)(de)小波近似系(xi)數(shu)(shu),這樣即可表(biao)征(zheng)原(yuan)(yuan)始(shi)信(xin)(xin)(xin)號(hao)(hao),又(you)可減少數(shu)(shu)據量(liang)(liang)。本發明采用了3層分(fen)(fen)(fen)解(jie),并將近似系(xi)數(shu)(shu)CA3作為新的(de)(de)信(xin)(xin)(xin)號(hao)(hao)來表(biao)征(zheng)原(yuan)(yuan)始(shi)信(xin)(xin)(xin)號(hao)(hao)進(jin)行處理,得(de)到(dao)離(li)散信(xin)(xin)(xin)號(hao)(hao)。
優選地,采(cai)用DB4小(xiao)波(bo)(bo)對離散(san)信(xin)(xin)(xin)號(hao)進行處理(li),由于音(yin)頻(pin)信(xin)(xin)(xin)號(hao)是非平穩的(de)信(xin)(xin)(xin)號(hao),大(da)多(duo)(duo)數音(yin)頻(pin)信(xin)(xin)(xin)號(hao)的(de)能量分布比較(jiao)集中,音(yin)頻(pin)信(xin)(xin)(xin)號(hao)重構時,應(ying)該使(shi)重構信(xin)(xin)(xin)號(hao)的(de)失真較(jiao)小(xiao)且(qie)比較(jiao)平滑(hua),因(yin)此(ci)選取(qu)的(de)小(xiao)波(bo)(bo)首先必須滿足緊支集、消(xiao)失矩和正則性。其次也(ye)要便(bian)于計算。實驗中發現,應(ying)用DB4小(xiao)波(bo)(bo)對音(yin)頻(pin)信(xin)(xin)(xin)號(hao)進行處理(li)取(qu)得的(de)效果較(jiao)為理(li)想。根據DB4小(xiao)波(bo)(bo)變換得到的(de)變換域(yu),提取(qu)多(duo)(duo)維(wei)小(xiao)波(bo)(bo)域(yu)特征(zheng),多(duo)(duo)維(wei)小(xiao)波(bo)(bo)域(yu)特征(zheng)包括過(guo)零點、幀能量、質心、帶寬、基因(yin)頻(pin)率等8維(wei)小(xiao)波(bo)(bo)域(yu)特征(zheng)。
其中(zhong),音頻(pin)(pin)特(te)征(zheng)(zheng)提取(qu)(qu)可以基(ji)于兩(liang)種不同(tong)的(de)(de)(de)時(shi)間(jian)(jian)長度,一(yi)種是基(ji)于音頻(pin)(pin)幀(zhen)(audio frame)的(de)(de)(de)特(te)征(zheng)(zheng)提取(qu)(qu),持(chi)續時(shi)間(jian)(jian)一(yi)般(ban)是幾(ji)十毫秒;另一(yi)種是基(ji)于音頻(pin)(pin)例子(audio clip)的(de)(de)(de)特(te)征(zheng)(zheng)提取(qu)(qu),持(chi)續時(shi)間(jian)(jian)一(yi)般(ban)是幾(ji)秒。在(zai)音頻(pin)(pin)分類中(zhong),所選(xuan)取(qu)(qu)的(de)(de)(de)特(te)征(zheng)(zheng)應(ying)該能夠充分刻(ke)畫(hua)音頻(pin)(pin)在(zai)時(shi)頻(pin)(pin)域的(de)(de)(de)重要分類特(te)性(xing),對環境的(de)(de)(de)改變具有魯棒性(xing)和(he)—般(ban)性(xing)。本發(fa)明是在(zai)小波域中(zhong)提取(qu)(qu)音頻(pin)(pin)例子的(de)(de)(de)統(tong)計特(te)征(zheng)(zheng)來進行分類,先將音頻(pin)(pin)例子分為疊(die)加幀(zhen),對每一(yi)音頻(pin)(pin)幀(zhen)提取(qu)(qu)特(te)征(zheng)(zheng),然后根據幀(zhen)層(ceng)次上的(de)(de)(de)特(te)征(zheng)(zheng)計算例子層(ceng)次上的(de)(de)(de)特(te)征(zheng)(zheng)。
下面對過零點(dian)、幀(zhen)能量、質心、帶寬、基因頻率做(zuo)進(jin)一步說明:
(1)過零點
對每一幀的低頻系數(CA3)進行特征提取,為了表示方便令CA3=xn,則xn(i)代表(biao)第n幀的第i個系(xi)(xi)數(shu)。過(guo)(guo)零點反映的是信(xin)號(hao)在經(jing)過(guo)(guo)小波變換后,低頻(pin)子帶小波系(xi)(xi)數(shu)的正負變化。為了防止噪聲干擾(rao),相鄰系(xi)(xi)數(shu)之間要有一定幅度變化。計算公(gong)式(shi)如下:
xn(i)*xn(i+1)<0&&xn(i+1)-xn(i)>0.02 (4)過零點這個指(zhi)標越小(xiao),反(fan)映信(xin)號越平(ping)穩,這在(zai)音(yin)(yin)樂風格上表現(xian)為節(jie)奏平(ping)穩,音(yin)(yin)頻波動越小(xiao),反(fan)之亦然。
(2)幀能量
在(zai)時(shi)域中,音(yin)頻(pin)信號的(de)幅(fu)度(du)分(fen)(fen)析可用(yong)于(yu)估計音(yin)頻(pin)信號的(de)特征,幅(fu)度(du)分(fen)(fen)析包括幅(fu)度(du)和能量兩方面,由于(yu)音(yin)頻(pin)的(de)時(shi)域特性(xing)中的(de)平均幅(fu)度(du)與小(xiao)(xiao)波系數(shu)(shu)的(de)平均幅(fu)度(du)相對應,因此可以用(yong)小(xiao)(xiao)波系數(shu)(shu)來定義(yi)(yi)音(yin)頻(pin)的(de)能量特征。本(ben)文中,定義(yi)(yi)若—個音(yin)頻(pin)例子(zi)(clip)被分(fen)(fen)為L幀,則第n幀(1≤n≤L)的(de)幀能量的(de)表示如下:
式中,K表示每一幀中的小波系數的個數,xn(i)表示(shi)第n幀的(de)第i個小波系(xi)數。
(3)質心
在小波域(yu)中(zhong),質心定(ding)義為(wei)能量分布的(de)中(zhong)心。由于在不(bu)(bu)同(tong)的(de)時(shi)間(jian)段內,音頻信(xin)(xin)號(hao)的(de)質心是(shi)不(bu)(bu)同(tong)的(de),從而質心特征可以作為(wei)一個(ge)典型的(de)反映音頻信(xin)(xin)號(hao)非平穩性的(de)特征。質心定(ding)義如下(xia):
(4)帶寬
時頻域分析(xi)中,帶(dai)寬(kuan)(kuan)是衡量(liang)音頻頻域范(fan)圍(wei)的指標,而在(zai)小波域中,帶(dai)寬(kuan)(kuan)則反(fan)(fan)映了平(ping)均能量(liang)的分布范(fan)圍(wei),在(zai)不同的時間段內,音頻信號(hao)(hao)的帶(dai)寬(kuan)(kuan)是不一樣的,因此帶(dai)寬(kuan)(kuan)特征(zheng)可以作為—個典型的反(fan)(fan)映音頻信號(hao)(hao)非平(ping)穩性(xing)的特征(zheng)。其定義如下:
(5)基音頻率
基音頻率是衡量音調高低的單位。音頻信號S經小波變換后取其近似系數CA3,作為新的信號xn(i),定義xn(i)的自相關函數Rn(m)為:
圖4為本發明(ming)中的歸一化自(zi)(zi)相關函數示意圖。當N=60時,自(zi)(zi)相關取得最大值,基音頻域(yu)等于(yu)
參見圖5,步驟S3中,多(duo)個(ge)音樂體(ti)裁特(te)征值的構造(zao),具(ju)體(ti)為(wei):
步驟S301,計算多個梅爾倒頻譜系數的平均值;
步(bu)驟S302,計算多幀(zhen)信號的(de)能(neng)(neng)(neng)量(liang)平(ping)均(jun)值、方差,計算總的(de)低能(neng)(neng)(neng)量(liang)幀(zhen)的(de)能(neng)(neng)(neng)量(liang)數(shu),低能(neng)(neng)(neng)量(liang)幀(zhen)為能(neng)(neng)(neng)量(liang)小于(yu)平(ping)均(jun)能(neng)(neng)(neng)量(liang)0.5倍的(de)幀(zhen);
步驟S303,計算多幀(zhen)信號的(de)質心、帶(dai)寬(kuan)、過零(ling)點的(de)均值;
步驟S304,計(ji)算多幀信號的(de)基音變換(huan)率和等基音頻率比例;
步(bu)驟S305,將上述特(te)(te)征值組成(cheng)的多(duo)維(wei)向量,形成(cheng)統計特(te)(te)征,統計特(te)(te)征作為Logistic回歸分類(lei)器的輸入(ru)。
參見圖6和圖7,步驟S4中,統計特征(zheng)向量的構成,具體為:
步驟(zou)S401,在每個(ge)統計特征(zheng)上(shang)都乘(cheng)以一個(ge)回(hui)歸系數,得到統計特征(zheng)向量;
步(bu)驟(zou)S402,將統(tong)計特(te)征向量輸入預(yu)先訓練好(hao)的(de)(de)Logistic回(hui)歸分(fen)類(lei)器,得到一個范圍(wei)在0-1之(zhi)間的(de)(de)數(shu)(shu)值,實(shi)現音(yin)樂體載的(de)(de)分(fen)類(lei),Logistic回(hui)歸分(fen)類(lei)器是利(li)用Sigmoid函數(shu)(shu)構成的(de)(de)分(fen)類(lei)器。
本(ben)申請實施(shi)例提出了一種(zhong)基于(yu)小(xiao)波變換域(yu)的(de)音樂體裁分類方(fang)法,在提取每一幀(zhen)頻(pin)域(yu)特征(zheng)梅爾倒頻(pin)譜(pu)系數(shu)(MFCC)的(de)同時,也對每一幀(zhen)信號做離散小(xiao)波變換,提取小(xiao)波域(yu)特征(zheng)。把(ba)頻(pin)域(yu)特征(zheng)和小(xiao)波特征(zheng)相結合計算(suan)其(qi)統計特征(zheng),這些統計特征(zheng)融合成一個(ge)20維的(de)向量,這些特征(zheng)包括(kuo)13個(ge)MFCC系數(shu)、過零點數(shu)、能量均(jun)值、能量方(fang)差、低幀(zhen)能量比(bi)、質心、基音頻(pin)率、帶寬。
Sigmoid函(han)數(shu)是一個良好的閾值函(han)數(shu),具(ju)有連續,光滑,嚴(yan)格單調的特性,通過Sigmoid函(han)數(shu)構成Logistic回歸分(fen)類器,可提高(gao)分(fen)類精(jing)度。
Logistic regression(邏(luo)輯回歸(gui)),是一種分類方(fang)法,用于二分類問題(ti)(即輸出(chu)只有兩種)。通常兩類使用類別標(biao)號0和1表(biao)示(shi),0表(biao)示(shi)不發(fa)生,1表(biao)示(shi)發(fa)生。例如:有100個(ge)手機,其中(zhong)有30個(ge)是你喜(xi)歡(huan)的(de),70個(ge)是不喜(xi)歡(huan)的(de)。現預測你對第101個(ge)手機的(de)喜(xi)好。這是一個(ge)兩類問題(ti),喜(xi)歡(huan)與不喜(xi)歡(huan)。
顯然這(zhe)是一個二分(fen)(fen)類問題,我們對第(di)101個手(shou)機進(jin)行預測分(fen)(fen)類,分(fen)(fen)為喜(xi)歡和不喜(xi)歡兩個類別(bie)。通過(guo)Logistic回歸作為分(fen)(fen)類器(qi),對音樂(le)進(jin)行分(fen)(fen)類識別(bie),取得了較(jiao)高的識別(bie)精度(du)。
實施例二
圖8示出了本發明(ming)第二實施例所提供的(de)(de)一(yi)種(zhong)(zhong)基于多特(te)征(zheng)音樂體載的(de)(de)分類系統的(de)(de)示意圖。如圖8所示,本發明(ming)第二實施例提供一(yi)種(zhong)(zhong)基于多特(te)征(zheng)音樂體載的(de)(de)分類系統10,包括:
頻(pin)(pin)(pin)域特征提取模塊(kuai)101,用(yong)于獲取音(yin)(yin)樂體(ti)載(zai)中的(de)多(duo)幀音(yin)(yin)頻(pin)(pin)(pin)信號,提取每一(yi)幀音(yin)(yin)頻(pin)(pin)(pin)信號頻(pin)(pin)(pin)譜的(de)多(duo)個梅爾(er)倒頻(pin)(pin)(pin)譜系數(shu),得到頻(pin)(pin)(pin)域特征;
小波域(yu)特征(zheng)提取模塊102,用于(yu)對每一幀音頻信號(hao)做離散小波變(bian)換(huan),提取小波域(yu)特征(zheng);
統計特(te)征向(xiang)量(liang)生(sheng)成(cheng)模塊103,用于將頻(pin)域特(te)征和小波(bo)特(te)征相結合計算,得(de)到(dao)多個音樂體裁特(te)征值,形成(cheng)統計特(te)征向(xiang)量(liang);
音(yin)樂分(fen)類(lei)(lei)模塊104,用(yong)于將統計特征向(xiang)量(liang)輸(shu)入(ru)預先訓(xun)練好的(de)Logistic回歸分(fen)類(lei)(lei)器,對音(yin)樂進(jin)行分(fen)類(lei)(lei)識別。
本發明的(de)基于多(duo)特(te)征(zheng)(zheng)(zheng)(zheng)(zheng)音(yin)樂(le)(le)體(ti)(ti)載的(de)分類系統(tong)10,其技術方案為:先通(tong)過(guo)頻(pin)域(yu)特(te)征(zheng)(zheng)(zheng)(zheng)(zheng)提(ti)取(qu)模塊(kuai)101,獲取(qu)音(yin)樂(le)(le)體(ti)(ti)載中的(de)多(duo)幀音(yin)頻(pin)信(xin)號(hao)(hao),提(ti)取(qu)每一(yi)幀音(yin)頻(pin)信(xin)號(hao)(hao)頻(pin)譜(pu)的(de)多(duo)個梅(mei)爾倒頻(pin)譜(pu)系數,得(de)到(dao)頻(pin)域(yu)特(te)征(zheng)(zheng)(zheng)(zheng)(zheng);然后通(tong)過(guo)小(xiao)波(bo)域(yu)特(te)征(zheng)(zheng)(zheng)(zheng)(zheng)提(ti)取(qu)模塊(kuai)102,對每一(yi)幀音(yin)頻(pin)信(xin)號(hao)(hao)做(zuo)離散小(xiao)波(bo)變換,提(ti)取(qu)小(xiao)波(bo)域(yu)特(te)征(zheng)(zheng)(zheng)(zheng)(zheng);接著通(tong)過(guo)統(tong)計(ji)特(te)征(zheng)(zheng)(zheng)(zheng)(zheng)向量生成(cheng)模塊(kuai)103,將(jiang)頻(pin)域(yu)特(te)征(zheng)(zheng)(zheng)(zheng)(zheng)和小(xiao)波(bo)特(te)征(zheng)(zheng)(zheng)(zheng)(zheng)相結(jie)合計(ji)算,得(de)到(dao)多(duo)個音(yin)樂(le)(le)體(ti)(ti)裁(cai)特(te)征(zheng)(zheng)(zheng)(zheng)(zheng)值,形成(cheng)統(tong)計(ji)特(te)征(zheng)(zheng)(zheng)(zheng)(zheng)向量;最后通(tong)過(guo)音(yin)樂(le)(le)分類模塊(kuai)104,將(jiang)統(tong)計(ji)特(te)征(zheng)(zheng)(zheng)(zheng)(zheng)向量輸(shu)入預先訓練好的(de)Logistic回歸分類器,對音(yin)樂(le)(le)進行分類識別。
本發明的基于多(duo)特(te)征(zheng)音樂體載的分(fen)(fen)類(lei)系統10,在提(ti)取(qu)每一(yi)幀(zhen)頻域(yu)特(te)征(zheng)梅爾倒頻譜(pu)系數(MFCC)的同(tong)時(shi),也對每一(yi)幀(zhen)信號(hao)做(zuo)離(li)散小波變換,提(ti)取(qu)小波域(yu)特(te)征(zheng);把(ba)頻域(yu)特(te)征(zheng)和小波特(te)征(zheng)相(xiang)結合計算其(qi)統計特(te)征(zheng),這些統計特(te)征(zheng)融合成一(yi)個多(duo)維(wei)的向量,通過Logistic回歸(gui)作為分(fen)(fen)類(lei)器,對音樂體裁進行分(fen)(fen)類(lei)識別,取(qu)得了較(jiao)高(gao)的識別精度和分(fen)(fen)類(lei)效果(guo)。
具體地(di),頻域特征提(ti)取模塊101中,包括梅(mei)爾倒頻譜系數(shu)提(ti)取子(zi)模塊,用于(yu):
對每一幀音頻(pin)信號進行(xing)快速傅里葉變換,得到(dao)每一幀音頻(pin)信號的頻(pin)譜;
對每一幀(zhen)音頻信號(hao)的頻譜進(jin)行濾波,得到頻譜能量;
對(dui)頻(pin)(pin)譜(pu)能量取對(dui)數,進行離散余弦變換,得(de)到多維梅(mei)爾(er)倒頻(pin)(pin)譜(pu)系數。
具(ju)體地,小波(bo)域特(te)征提取模塊102中,包括小波(bo)域特(te)征提取子模塊,用于:
對(dui)每一(yi)幀音頻信(xin)號進行離散(san)小(xiao)波域變(bian)換(huan),得到小(xiao)波變(bian)換(huan)域;
根據小(xiao)波變換域,提取多維小(xiao)波域特征。
具體(ti)地,統(tong)計特征向量生成模(mo)塊中103,包括特征值構造子模(mo)塊,用于:
計算多(duo)個梅爾倒(dao)頻譜系(xi)數(shu)的平均值;
計算多幀信號的(de)能量(liang)平均(jun)值、方差,計算總的(de)低(di)能量(liang)幀的(de)能量(liang)數,低(di)能量(liang)幀為能量(liang)小于(yu)平均(jun)能量(liang)0.5倍的(de)幀;
計算多幀信號的質心、帶寬、過零點的均值;
計算(suan)多幀信號的基音(yin)變換率和等基音(yin)頻率比(bi)例(li);
將上述(shu)特(te)征(zheng)值組成的多(duo)維向量,形成統計(ji)特(te)征(zheng),統計(ji)特(te)征(zheng)作為Logistic回歸分類器的輸(shu)入。
具體地(di),音樂分類模塊104中,包括統(tong)計(ji)特征構成子模塊,用于(yu):
在(zai)每個(ge)統計特征(zheng)上都(dou)乘(cheng)以一個(ge)回歸系數,得到統計特征(zheng)向(xiang)量;
將統計特征向量輸入預先訓練好的Logistic回歸(gui)分類器,得到一個(ge)范圍在0-1之間的數值,實(shi)現音樂(le)體載的分類,Logistic回歸(gui)分類器是(shi)利用Sigmoid函數構成的分類器。
本發明提出了一(yi)種基于小波(bo)變(bian)換域的(de)(de)音(yin)樂體(ti)裁分類方法及系(xi)統,在提取每一(yi)幀頻域特(te)征(zheng)(zheng)梅(mei)爾倒頻譜系(xi)數(MFCC)的(de)(de)同時,也對(dui)每一(yi)幀信(xin)號做離散小波(bo)變(bian)換,提取小波(bo)域特(te)征(zheng)(zheng)。把頻域特(te)征(zheng)(zheng)和小波(bo)特(te)征(zheng)(zheng)相結合計(ji)算(suan)其統計(ji)特(te)征(zheng)(zheng),這些統計(ji)特(te)征(zheng)(zheng)融合成一(yi)個(ge)20維(wei)的(de)(de)向量(liang),這些特(te)征(zheng)(zheng)包括13個(ge)MFCC系(xi)數、過零(ling)點數、能量(liang)均值、能量(liang)方差、低幀能量(liang)比、質心、基音(yin)頻率、帶寬。
Sigmoid函(han)(han)數(shu)是一個良好的(de)閾值(zhi)函(han)(han)數(shu),具有連續,光滑(hua),嚴格(ge)單調的(de)特性,通過Sigmoid函(han)(han)數(shu)構成Logistic回(hui)歸分(fen)類(lei)器,可提高分(fen)類(lei)精度。
Logistic regression(邏輯回歸(gui)),是一(yi)種分類(lei)(lei)方法,用(yong)于二分類(lei)(lei)問(wen)題(ti)(即輸(shu)出只(zhi)有(you)(you)兩(liang)種)。通常(chang)兩(liang)類(lei)(lei)使用(yong)類(lei)(lei)別標號0和1表(biao)示(shi),0表(biao)示(shi)不(bu)發(fa)生(sheng),1表(biao)示(shi)發(fa)生(sheng)。例如:有(you)(you)100個(ge)(ge)手(shou)機(ji),其中有(you)(you)30個(ge)(ge)是你喜歡(huan)(huan)的,70個(ge)(ge)是不(bu)喜歡(huan)(huan)的。現預測(ce)你對第101個(ge)(ge)手(shou)機(ji)的喜好。這是一(yi)個(ge)(ge)兩(liang)類(lei)(lei)問(wen)題(ti),喜歡(huan)(huan)與不(bu)喜歡(huan)(huan)。
顯然(ran)這是(shi)一個(ge)二分(fen)類(lei)問題,我們對(dui)第101個(ge)手機(ji)進(jin)行預(yu)測分(fen)類(lei),分(fen)為喜歡和(he)不喜歡兩個(ge)類(lei)別。通過Logistic回歸作為分(fen)類(lei)器,對(dui)音樂進(jin)行分(fen)類(lei)識別,取得了較(jiao)高的識別精度。
最后(hou)應說(shuo)明(ming)的(de)是:以(yi)上各(ge)實施(shi)(shi)例(li)(li)僅(jin)用(yong)以(yi)說(shuo)明(ming)本(ben)(ben)發明(ming)的(de)技(ji)術(shu)(shu)(shu)方案,而非對(dui)其限制(zhi);盡管(guan)參(can)照前(qian)述各(ge)實施(shi)(shi)例(li)(li)對(dui)本(ben)(ben)發明(ming)進行了詳細的(de)說(shuo)明(ming),本(ben)(ben)領(ling)域的(de)普通技(ji)術(shu)(shu)(shu)人員應當理解:其依然可以(yi)對(dui)前(qian)述各(ge)實施(shi)(shi)例(li)(li)所記載的(de)技(ji)術(shu)(shu)(shu)方案進行修改,或(huo)者(zhe)對(dui)其中(zhong)部分或(huo)者(zhe)全部技(ji)術(shu)(shu)(shu)特征進行等同(tong)替(ti)換;而這些(xie)修改或(huo)者(zhe)替(ti)換,并不使相(xiang)應技(ji)術(shu)(shu)(shu)方案的(de)本(ben)(ben)質(zhi)脫離本(ben)(ben)發明(ming)各(ge)實施(shi)(shi)例(li)(li)技(ji)術(shu)(shu)(shu)方案的(de)范圍(wei),其均(jun)應涵蓋在本(ben)(ben)發明(ming)的(de)權利要求和(he)說(shuo)明(ming)書(shu)的(de)范圍(wei)當中(zhong)。