本發明涉(she)及智(zhi)能家居的人機交互技術領域,尤其涉(she)及一種公共背(bei)景噪聲(sheng)下激活式的聲(sheng)紋密(mi)碼安(an)全(quan)控制方法及系(xi)統。
背景技術:
隨(sui)著社會的(de)發(fa)展,語(yu)音(yin)作(zuo)為一(yi)種(zhong)媒介出(chu)現在人機交(jiao)互界面(mian)中,是(shi)社會發(fa)展的(de)趨勢,相比其它任(ren)何一(yi)種(zhong)人與人之間的(de)交(jiao)流方(fang)式(shi)來說(shuo),語(yu)音(yin)交(jiao)流是(shi)一(yi)種(zhong)快速的(de)手段,語(yu)音(yin)識別已(yi)經慢慢滲透(tou)于(yu)我們日常(chang)生活(huo)當中,現在很(hen)多(duo)行(xing)業(ye)先驅相信(xin)借于(yu)語(yu)音(yin)進行(xing)人機之間的(de)交(jiao)互,會引向一(yi)個方(fang)便人們日常(chang)生活(huo)。
自(zi)動語(yu)(yu)音(yin)識(shi)別(bie)(automaticspeechrecognition,asr)技(ji)術(shu)自(zi)從二十世紀(ji)五十年代以來一(yi)直研究的主題(ti)。自(zi)動語(yu)(yu)音(yin)識(shi)別(bie)技(ji)術(shu)是(shi)一(yi)種將人的語(yu)(yu)音(yin)轉換為文(wen)本的技(ji)術(shu)。語(yu)(yu)音(yin)識(shi)別(bie)是(shi)一(yi)個(ge)多(duo)學(xue)科(ke)交叉(cha)的領域,它與聲學(xue)、語(yu)(yu)音(yin)學(xue)、語(yu)(yu)言學(xue)、數字信號處理(li)(li)理(li)(li)論、信息論、計算機(ji)科(ke)學(xue)等眾多(duo)學(xue)科(ke)緊密相連。由于(yu)語(yu)(yu)音(yin)信號的多(duo)樣性(xing)和復雜性(xing),語(yu)(yu)音(yin)識(shi)別(bie)系統(tong)在人機(ji)交互領域的應用還不是(shi)很成熟,只有在特定的條件(jian)下(xia)獲得(de)滿意的性(xing)能(neng),或者說只能(neng)應用于(yu)特定的某些場合。
在(zai)智能家居給人(ren)們(men)帶(dai)來(lai)便捷生活的(de)同時,人(ren)們(men)的(de)控制習(xi)慣漸(jian)漸(jian)發(fa)生了改(gai)變(bian)。語(yu)音(yin)技術(shu)的(de)發(fa)展也為控制入口做出了一(yi)個很好的(de)補(bu)充,再(zai)拋(pao)去傳統遙(yao)控器(qi)和(he)手(shou)機(ji)app之后,通(tong)過(guo)語(yu)音(yin)指(zhi)令(ling)的(de)發(fa)送(song)讓(rang)人(ren)們(men)的(de)生活更加便利。所謂智能語(yu)音(yin)主要是通(tong)過(guo)語(yu)音(yin)識別(bie)技術(shu)和(he)語(yu)音(yin)合成技術(shu)為用戶提供各種服務。在(zai)語(yu)音(yin)控制技術(shu)方(fang)面,人(ren)們(men)與(yu)機(ji)器(qi)進行語(yu)音(yin)交(jiao)流,讓(rang)機(ji)器(qi)明白你說(shuo)什么,這是人(ren)們(men)長期以來(lai)夢寐以求(qiu)的(de)事情(qing)。試音(yin)識別(bie)技術(shu)就(jiu)是讓(rang)機(ji)器(qi)通(tong)過(guo)識別(bie)和(he)理解過(guo)程把語(yu)音(yin)信號(hao)轉變(bian)為相應的(de)文(wen)本或命令(ling)的(de)技術(shu)。
就目前語(yu)音(yin)(yin)識別的(de)(de)(de)發展狀況(kuang),語(yu)音(yin)(yin)識別技術分(fen)為(wei)(wei)很多(duo)種模式(shi),比如(ru)說(shuo)按(an)系(xi)(xi)統(tong)(tong)(tong)的(de)(de)(de)用戶情況(kuang)分(fen)為(wei)(wei)特定人和非特定人識別系(xi)(xi)統(tong)(tong)(tong),按(an)系(xi)(xi)統(tong)(tong)(tong)的(de)(de)(de)詞匯(hui)量(liang)(liang)分(fen)為(wei)(wei)小詞匯(hui)量(liang)(liang)、中(zhong)詞匯(hui)量(liang)(liang)和大詞匯(hui)量(liang)(liang)系(xi)(xi)統(tong)(tong)(tong),按(an)語(yu)音(yin)(yin)的(de)(de)(de)輸入(ru)方式(shi)分(fen)為(wei)(wei)孤立詞、連接詞和連續(xu)語(yu)音(yin)(yin)系(xi)(xi)統(tong)(tong)(tong)等(deng),按(an)輸入(ru)語(yu)音(yin)(yin)的(de)(de)(de)發音(yin)(yin)方式(shi)分(fen)朗(lang)讀式(shi)、口語(yu)式(shi),按(an)輸入(ru)語(yu)音(yin)(yin)的(de)(de)(de)方言(yan)(yan)背(bei)景(jing)情況(kuang)分(fen)為(wei)(wei)普(pu)通話、方言(yan)(yan)背(bei)景(jing)普(pu)通話、方言(yan)(yan)語(yu)音(yin)(yin)識別系(xi)(xi)統(tong)(tong)(tong),按(an)輸入(ru)語(yu)言(yan)(yan)的(de)(de)(de)情感(gan)狀態分(fen)為(wei)(wei)中(zhong)性語(yu)音(yin)(yin)、情感(gan)語(yu)音(yin)(yin)識別系(xi)(xi)統(tong)(tong)(tong)等(deng)等(deng)。但在(zai)高(gao)識別率的(de)(de)(de)情況(kuang)下(xia)只有通過特定的(de)(de)(de)條件下(xia)才能(neng)實現。
現在設備的人機交互(hu)界面有鍵(jian)盤、圖像、指紋等方式,但(dan)是鍵(jian)盤操作(zuo)有很(hen)多不方便。在特定(ding)環境下,比(bi)如汽車駕駛人員在駕駛的時候操作(zuo)鍵(jian)盤要(yao)手眼并用(yong),就(jiu)無法注意到路(lu)面狀況,這就(jiu)存在著交通隱(yin)患。對于某些(xie)身(shen)體殘疾或老人來說(shuo),界面式的操作(zuo)都不是很(hen)方便,甚至是不可(ke)能的。
通(tong)信以(yi)及網(wang)絡的(de)(de)全球覆蓋使得信息(xi)公(gong)開化成為歷史必然(ran),人(ren)(ren)們(men)獲(huo)取資料的(de)(de)手段前所未有(you)的(de)(de)豐富,然(ran)而負面影響也隨(sui)之而來。伴隨(sui)著信息(xi)透明化,個人(ren)(ren)隱(yin)私(si)的(de)(de)安全性也受到了極大的(de)(de)威(wei)脅,相(xiang)應(ying)的(de)(de),如何正確進行個人(ren)(ren)身份的(de)(de)識別(bie)進而保護私(si)人(ren)(ren)數據,是(shi)人(ren)(ren)機交互(hu)中一(yi)個亟待(dai)深入的(de)(de)課題(ti)。在(zai)個人(ren)(ren)身份識別(bie)中,傳(chuan)統的(de)(de)文字(zi)密碼等保密手段存在(zai)著易被(bei)竊取和(he)冒認的(de)(de)危(wei)險,而利(li)用人(ren)(ren)本身的(de)(de)生(sheng)物特(te)征(zheng)是(shi)相(xiang)對(dui)比較可(ke)(ke)靠的(de)(de)一(yi)門技(ji)術。許多生(sheng)物特(te)征(zheng)往往具有(you)唯(wei)一(yi)性,如dna、虹膜、指紋等等,這(zhe)些特(te)征(zheng)不會(hui)改(gai)變(bian);另(ling)一(yi)方(fang)(fang)面就是(shi)聲(sheng)(sheng)音在(zai)一(yi)定的(de)(de)時間(jian)間(jian)隔內相(xiang)對(dui)穩定的(de)(de)特(te)征(zheng)。上述兩方(fang)(fang)面都可(ke)(ke)以(yi)作為識別(bie)的(de)(de)依據。聲(sheng)(sheng)紋密碼識別(bie)相(xiang)對(dui)于指紋、虹膜識別(bie)來說,人(ren)(ren)聲(sheng)(sheng)的(de)(de)采(cai)集(ji)成本低廉、操作簡(jian)便(bian),具有(you)很好的(de)(de)通(tong)用性和(he)獨特(te)性;同時聲(sheng)(sheng)音帶有(you)較強的(de)(de)個人(ren)(ren)特(te)征(zheng),可(ke)(ke)以(yi)廣泛地普及到人(ren)(ren)們(men)的(de)(de)日常生(sheng)活領域(yu)中。
對(dui)于(yu)現(xian)狀的(de)(de)(de)智能家居的(de)(de)(de)語音(yin)控制(zhi)在很(hen)多(duo)場景下因(yin)(yin)語音(yin)交互體驗不如人意而深受詬病,究(jiu)其主要(yao)原因(yin)(yin)是受限于(yu)空間(jian)距離(li)、背景噪聲、其他人聲的(de)(de)(de)干擾、回聲、混響等多(duo)重(zhong)復雜因(yin)(yin)素,進而出現(xian)識別距離(li)近、識別率(lv)低、安全性(xing)能低的(de)(de)(de)明顯缺點(dian)。現(xian)在大(da)部分智能家居系統中(zhong)的(de)(de)(de)語音(yin)控制(zhi)只是做到(dao)簡單的(de)(de)(de)控制(zhi),忽略了其功效和安全性(xing)。
所以說在(zai)人機交(jiao)互中的(de)自然語(yu)言交(jiao)互的(de)公共背景噪(zao)聲下聲音拾取和安(an)全性是(shi)兩個亟待深入研究的(de)兩個課題(ti)。
技術實現要素:
為了克服現有(you)技術存在的缺(que)點(dian)與不足,本發明提供(gong)一直公共背景(jing)噪聲下(xia)激活式(shi)的聲紋密碼安全控制方法及系統(tong),解決(jue)了背景(jing)噪聲,其他(ta)人(ren)聲、回聲、混響(xiang)低信噪比下(xia)對(dui)語(yu)音突發的增量(liang)進行(xing)定位拾取,通過三次安全語(yu)音識別及控制的操作(zuo)解決(jue)上(shang)述現狀的問題(ti)。
為解決上(shang)述技(ji)術問題(ti),本發明提供如下(xia)(xia)(xia)技(ji)術方案(an):一種公(gong)共背景噪聲下(xia)(xia)(xia)激活式(shi)的聲紋(wen)密碼安全(quan)控制方法,包括下(xia)(xia)(xia)述步驟:
s1、激活(huo)識別模(mo)塊在普通環(huan)境下實時進行(xing)語音(yin)(yin)信(xin)(xin)號(hao)監測,若檢測到(dao)語音(yin)(yin)信(xin)(xin)號(hao),則(ze)對語音(yin)(yin)信(xin)(xin)號(hao)進行(xing)預加重、加窗(chuang)和(he)分幀(zhen)(zhen)處理,并(bing)求取(qu)(qu)語音(yin)(yin)信(xin)(xin)號(hao)的幅度值;根據(ju)實驗得到(dao)語音(yin)(yin)信(xin)(xin)號(hao)與噪聲之間的信(xin)(xin)噪比(bi),并(bing)將信(xin)(xin)噪比(bi)轉化為(wei)幅度差(cha)t;設t為(wei)判(pan)決門(men)限值,若語音(yin)(yin)信(xin)(xin)號(hao)的前一(yi)幀(zhen)(zhen)與后(hou)一(yi)幀(zhen)(zhen)只差(cha)大(da)于等于t,則(ze)認(ren)為(wei)進入靜默期;若語音(yin)(yin)信(xin)(xin)號(hao)的前一(yi)幀(zhen)(zhen)與后(hou)一(yi)幀(zhen)(zhen)只差(cha)小(xiao)于t,則(ze)判(pan)斷是激活(huo)標(biao)志,并(bing)激活(huo)聲源定(ding)位拾取(qu)(qu)模(mo)塊;
s2、聲(sheng)源(yuan)定位拾取模塊通過麥克風陣列接收交互目(mu)標聲(sheng)源(yuan)數據(ju),并對交互目(mu)標聲(sheng)源(yuan)進行(xing)到達時延差的(de)估計(ji);
s3、對估計(ji)后的到達時延差,結(jie)合麥克風陣列的位(wei)置(zhi)構造多個雙曲面(mian),并計(ji)算每個雙曲面(mian)的焦點(dian),確定交互(hu)目(mu)標聲(sheng)源位(wei)置(zhi),從(cong)而在交互(hu)目(mu)標聲(sheng)源位(wei)置(zhi)得到交互(hu)目(mu)標聲(sheng)源的語音信號;
s4、預(yu)處(chu)(chu)理(li)(li)模(mo)塊對交(jiao)互目(mu)標聲源的語音信號進行預(yu)處(chu)(chu)理(li)(li),預(yu)處(chu)(chu)理(li)(li)包括預(yu)濾(lv)波、采樣、量化、模(mo)式(shi)轉(zhuan)換(huan)、預(yu)加重、加窗(chuang)、分幀處(chu)(chu)理(li)(li)、端點(dian)檢測以及生產mfcc_d特(te)征(zheng)參(can)數(shu)過(guo)程;
s5、對預處理后的語音(yin)信號,聲紋密碼識別模塊提取特(te)征參數,將特(te)征參數與錄音(yin)庫(ku)的指令(ling)文(wen)本(ben)進行匹配。
進(jin)一步地,所述步驟s2中對目(mu)標(biao)聲(sheng)(sheng)源進(jin)行(xing)到達時(shi)延差的估計(ji),包括在二維空(kong)間和三維空(kong)間對目(mu)標(biao)聲(sheng)(sheng)源進(jin)行(xing)到達時(shi)延差的估計(ji);其中
所述二維空間對目(mu)標(biao)(biao)聲(sheng)源(yuan)進行(xing)到達時延差的估(gu)計(ji),具體(ti)為(wei):設麥(mai)克(ke)風陣(zhen)列(lie)包括三個麥(mai)克(ke)風,相鄰(lin)麥(mai)克(ke)風之(zhi)間的距(ju)離為(wei)δd,以陣(zhen)列(lie)中心的麥(mai)克(ke)風為(wei)參考(kao)點(dian),目(mu)標(biao)(biao)聲(sheng)源(yuan)距(ju)參考(kao)點(dian)的距(ju)離為(wei)r,目(mu)標(biao)(biao)聲(sheng)源(yuan)與距(ju)離r關系滿足(zu)下式:
式中(zhong),τ1、τ2分(fen)別是麥(mai)克風陣(zhen)列兩側的(de)(de)兩個(ge)麥(mai)克風與參考(kao)點麥(mai)克風的(de)(de)時延差,v為聲速(su);其中(zhong),上式中(zhong)表(biao)示(shi)出目標聲源相對于麥(mai)克風陣(zhen)列的(de)(de)極坐標(r,θ)為:
由(you)上式得(de),只要(yao)獲知τ1、τ2的值,即可(ke)唯一確定目標聲源的極坐(zuo)標;
所述三維空間對目標聲源進行到達時延差的估計,具體為:建立麥克風陣列模型,所述麥克風陣列模型包括兩個平行的麥克風陣列,每個麥克風陣列包括三個麥克風;其中,麥克風陣列間距為d,且每個麥克風陣列均以中間的麥克風為參考點,把其中一個麥克風陣列的參考點作為原點,建立三維坐標系;設目標聲源的球坐標為
首先,分別(bie)在麥(mai)克風陣列中通(tong)過上述二維空間對(dui)目(mu)(mu)標聲源(yuan)進行到達(da)時延差的估計算法,得到目(mu)(mu)標聲源(yuan)相對(dui)兩個(ge)麥(mai)克風陣列參考點的極坐標(r,θ)與(r',θ'),則由陣列的幾何(he)關系有:
其中,
進一步(bu)地(di),所述步(bu)驟(zou)s2,在(zai)進行到達時延差的估計前,先(xian)對交互目標聲源進行閾(yu)值判決,具體(ti)為(wei):
a、對交(jiao)互目(mu)標聲源數據(ju)進行(xing)a/d轉換(huan),轉換(huan)后第i個麥(mai)克(ke)風接(jie)收(shou)的信號xi(t)為:
式中,
b、為了確保時延差的估計精度,對麥克風接收到的信號進行插值處理,得到xi(n);設定一個較閾值a0,根據式
c、對(dui)不同麥克(ke)風(feng)經過閾值(zhi)判(pan)決后的信號(hao)進行(xing)相(xiang)關處理(li),通過峰值(zhi)檢測完成到達(da)時(shi)延差的估計,所述進行(xing)相(xiang)關處理(li)方式為:
rij(τ)=e[xi(n)xj(n+τ)]。
進(jin)一步(bu)地,所述步(bu)驟c得(de)到經(jing)過到達時延差的估計后的交互目(mu)標聲源信(xin)(xin)號,此時,需對交互目(mu)標聲源信(xin)(xin)號利用改(gai)進(jin)的加權(quan)波束形成法進(jin)行(xing)語音增強,具體為(wei):
已(yi)知了各個麥(mai)克風與目標聲源的距離,因(yin)此通過下式(shi)對各麥(mai)克風信(xin)號進行加權(quan):
其中ωi為(wei)(wei)對(dui)第(di)i個麥(mai)克(ke)(ke)風信號(hao)加權(quan)的(de)權(quan)重,ri為(wei)(wei)第(di)i個麥(mai)克(ke)(ke)風與目(mu)標聲源之(zhi)間的(de)距(ju)離,r0為(wei)(wei)信號(hao)接收模(mo)型(xing)原點處麥(mai)克(ke)(ke)風與目(mu)標聲源的(de)距(ju)離;
此時(shi),麥克風陣列的輸出用(yong)下式描述(shu):
其中(zhong),yi(n)為第i麥克(ke)風(feng)接收到(dao)的語音信(xin)(xin)號(hao)(hao);δti為交(jiao)互(hu)目標聲源(yuan)信(xin)(xin)號(hao)(hao)傳播(bo)到(dao)第i個麥克(ke)風(feng)在采樣域的時間延遲;m為接收信(xin)(xin)號(hao)(hao)的麥克(ke)風(feng)數;
假設每(mei)個麥克(ke)風接(jie)收的(de)信(xin)(xin)號具有相同(tong)的(de)統計特(te)性,均值(zhi)都(dou)為(wei)(wei)零,功率譜為(wei)(wei)φnn(ω);經過時間補(bu)償(chang)后,各個通道的(de)信(xin)(xin)號關(guan)于交互(hu)目標語(yu)音(yin)s(n)達到同(tong)步,則第i個麥克(ke)風經延遲補(bu)償(chang)后的(de)信(xin)(xin)號為(wei)(wei):
其中,
由(you)上(shang)式可知,根據目(mu)標聲源位置的(de)(de)(de)遠近自適應(ying)調(diao)整通道(dao)加權的(de)(de)(de)大小,不(bu)但能夠(gou)達到固定波束形成(cheng)器那樣(yang)通過平均減(jian)弱噪(zao)聲干擾的(de)(de)(de)目(mu)的(de)(de)(de),同(tong)時還(huan)能最大化地利用信噪(zao)比較(jiao)大通道(dao)的(de)(de)(de)信號,更好地實現目(mu)標語(yu)音(yin)的(de)(de)(de)增強。
進(jin)一步(bu)地,所述步(bu)驟s3中計算每個雙曲面的(de)焦點(dian),其具體為(wei):
根據麥克風接收信號模型,忽略信號幅度(du)衰(shuai)減,得兩個(ge)麥克風接收的信號為:
y1(t)=s(t)+n1(t)
y2(t)=s(t-d)+n2(t)
其(qi)中(zhong),s(t)是交互目(mu)標(biao)聲(sheng)源信號(hao),d是信號(hao)到達(da)兩個(ge)麥克風(feng)的相(xiang)對時間延遲;n1(t)、n2(t)都為(wei)加性噪聲(sheng)干擾;
則y1(t),y2(t)的互(hu)相關(guan)函數r12(τ)為(wei):
其中(zhong)y1(ω)、y2(ω)分別(bie)是y1(t)、y2(t)的(de)傅里葉變(bian)換,ψ12為廣義互相關法頻域的(de)加(jia)權函數;根據不(bu)同(tong)的(de)噪(zao)聲情況來選擇不(bu)同(tong)的(de)所述加(jia)權函數,以使r12(τ)具(ju)有(you)較(jiao)尖銳的(de)峰值(zhi)。
進一步地,所述步驟(zou)s5中聲(sheng)紋密碼識別模塊提取特征(zheng)參數,具體為:
s41、把一(yi)幀語音信號進行(xing)離散小波分(fen)解(jie),分(fen)解(jie)為3層,每(mei)一(yi)層形成頻帶0khz-0.5khz、0.5khz-1khz、1khz-2khz、2khz-4khz,求出(chu)每(mei)一(yi)個(ge)頻帶的(de)小波系數;
s42、求(qiu)取每(mei)一層小波系(xi)數的(de)頻譜(pu)和每(mei)一層小波系(xi)數fft;
s43、頻(pin)譜(pu)拼(pin)(pin)接:近似系數(shu)的(de)頻(pin)譜(pu)直接放置在第一層;由于高通信號(hao)抽取(qu)后下變頻(pin)在低頻(pin)處產(chan)生鏡像,所有(you)細節系數(shu)的(de)頻(pin)譜(pu)翻轉后按照分辨率由小(xiao)到大拼(pin)(pin)接;如(ru)此便拼(pin)(pin)接出了(le)整個信號(hao)的(de)頻(pin)譜(pu),即fft幅(fu)度譜(pu)的(de)對稱(cheng)性,后半段則(ze)是拼(pin)(pin)接后頻(pin)譜(pu)的(de)鏡像對稱(cheng);
s44、對拼接的(de)頻譜求取(qu)能(neng)量:通過mel濾(lv)波器組,取(qu)對數能(neng)量,經過dct變換得(de)到(dao)特征參數的(de)dwt-mfc參數。
進(jin)(jin)一步地,所述步驟s5中(zhong)錄音庫的(de)指令文本,其預(yu)先通過錄音模板(ban)生(sheng)產模塊進(jin)(jin)行處理,具體為:采(cai)用(yong)基于dwt-mfc的(de)trendedhmm的(de)模型對指令文本進(jin)(jin)行訓練:
(1)假設系統用(yong)戶a,該用(yong)戶讀3遍指(zhi)定語(yu)音的文本指(zhi)令(ling),對每(mei)一遍的文本指(zhi)令(ling)進(jin)行dwt-mfc特征參數的提取,得(de)到(dao)3個特征向量序列;
(2)利用viterbi算(suan)法對每個(ge)特征向(xiang)(xiang)量序(xu)列(lie)進行分割,將分割后的(de)多個(ge)特征向(xiang)(xiang)量序(xu)列(lie)合并為一個(ge)序(xu)列(lie);
(3)利(li)用sweep算法來估(gu)計(ji)模型參(can)數;將上述的(de)分(fen)割和優(you)化進(jin)(jin)行迭(die)代,直至viterbi得(de)分(fen)進(jin)(jin)行收斂,得(de)到每個用戶相對(dui)應的(de)特征參(can)數的(de)dwt-mfc參(can)數。
本發明(ming)另一目的是提供一種(zhong)公共背(bei)景噪聲(sheng)下激活式的聲(sheng)紋(wen)密碼安全控制系統,包括激活識別(bie)模(mo)塊(kuai)、聲(sheng)源定位拾取模(mo)塊(kuai)、預處(chu)理(li)模(mo)塊(kuai)、聲(sheng)紋(wen)密碼識別(bie)模(mo)塊(kuai)、指令識別(bie)模(mo)塊(kuai)以及錄音模(mo)板(ban)生成模(mo)塊(kuai),其中(zhong)
所述激活識別模塊用于判斷接收的(de)語(yu)音(yin)信號是否(fou)為(wei)所需要(yao)的(de)交互目標聲源數(shu)據(ju),從而激活聲源定位(wei)語(yu)音(yin)增(zeng)強模塊;
所述(shu)聲源(yuan)定位拾(shi)取模(mo)塊(kuai)用于確定交(jiao)互目標聲源(yuan)位置,并提(ti)取語音信號;
所述(shu)預處(chu)理(li)模(mo)塊用于對語音信號(hao)進行預處(chu)理(li),預處(chu)理(li)包括預濾(lv)波(bo)、采樣、量化、模(mo)式轉換、預加重、加窗(chuang)、分(fen)幀(zhen)處(chu)理(li)、端點檢測以及生產mfcc_d特征(zheng)參數(shu)過程;
所述(shu)聲紋(wen)密碼(ma)識別(bie)模塊用于對相關文本的相關說(shuo)話(hua)人識別(bie),達到(dao)雙重識別(bie)的過程;
所述(shu)指令(ling)識別(bie)模塊用于(yu)于(yu)家庭設(she)備的命(ming)令(ling)操(cao)作;
所述錄音(yin)模(mo)板生成模(mo)塊用于預先(xian)提取用戶(hu)的(de)聲(sheng)(sheng)紋(wen)(wen)密碼指令,并對聲(sheng)(sheng)紋(wen)(wen)密碼指令進(jin)行指令文本的(de)訓練。
進一(yi)步(bu)地,所述(shu)聲源定位拾取模塊包(bao)括(kuo)麥克(ke)風(feng)(feng)陣列,所述(shu)麥克(ke)風(feng)(feng)陣列包(bao)括(kuo)若干麥克(ke)風(feng)(feng),所述(shu)麥克(ke)風(feng)(feng)用于接收交互目標(biao)聲源數據。
采用上述技術方案后,本(ben)發明至(zhi)少具有如下有益效果:
(1)本發明基于激(ji)活系統(tong)的實(shi)時(shi)檢測,保證了識別(bie)系統(tong)的非實(shi)時(shi)性(xing),延長了識別(bie)系統(tong)的生(sheng)命周(zhou)期,增(zeng)大了效(xiao)率;
(2)本(ben)發明聲紋(wen)識(shi)別采(cai)用雙重識(shi)別,增加(jia)了安全性。
附圖說明
圖1為本發明公共背景噪聲下激活式的(de)聲紋密(mi)碼安全(quan)控制方法的(de)步驟流(liu)程圖;
圖2為本發明公共背景(jing)噪聲(sheng)(sheng)下激活式的聲(sheng)(sheng)紋密碼安全控制方法中對閾值判決的流(liu)程(cheng)圖;
圖3為本(ben)發明公共背(bei)景噪聲下(xia)激活(huo)式(shi)的聲紋(wen)密碼安全控制方法中(zhong)改進的加權波束(shu)形成法結構圖
圖4為本發明公共背(bei)景噪聲下激活式的(de)聲紋密碼安全控(kong)制方法中對特征參(can)數提取步(bu)驟(zou)流程圖;
圖(tu)5為本發明公(gong)共(gong)背景噪聲下激活式的聲紋密碼安全控制系統的結構框圖(tu);
圖(tu)6為本發明公共背景(jing)噪聲下(xia)激活式的(de)聲紋(wen)密碼安全控制系統的(de)麥克風陣列接收三維信號的(de)模型(xing)圖(tu)。
具體實施方式
需要(yao)說(shuo)明的(de)(de)是,在不沖(chong)突(tu)的(de)(de)情(qing)況下,本申請(qing)中(zhong)的(de)(de)實施例(li)(li)及實施例(li)(li)中(zhong)的(de)(de)特征可以相互結合(he),下面結合(he)附圖和具體實施例(li)(li)對本申請(qing)作(zuo)進一步詳細(xi)說(shuo)明。
如圖(tu)1所(suo)示,本發明提供一種公共背(bei)景噪(zao)聲下激活式的聲紋密碼安全(quan)控制方(fang)法,主要步驟包(bao)括:
s1、激活(huo)識別模塊在普通環境下實時進行語(yu)音(yin)信(xin)號監(jian)測(ce),若(ruo)(ruo)檢測(ce)到(dao)語(yu)音(yin)信(xin)號,則對(dui)語(yu)音(yin)信(xin)號進行預加重、加窗和分幀(zhen)處理,并(bing)求取(qu)語(yu)音(yin)信(xin)號的幅(fu)度值;根(gen)據實驗得(de)到(dao)語(yu)音(yin)信(xin)號與噪聲之間的信(xin)噪比,并(bing)將信(xin)噪比轉化為幅(fu)度差(cha)t;設t為判決門(men)限值,若(ruo)(ruo)語(yu)音(yin)信(xin)號的前一幀(zhen)與后(hou)一幀(zhen)只差(cha)大(da)于等于t,則認(ren)為進入靜默期;若(ruo)(ruo)語(yu)音(yin)信(xin)號的前一幀(zhen)與后(hou)一幀(zhen)只差(cha)小于t,則判斷是激活(huo)標志(zhi),并(bing)激活(huo)聲源定位拾取(qu)模塊;
s2、聲(sheng)源(yuan)定位(wei)拾(shi)取模塊通(tong)過麥(mai)克風陣(zhen)列接(jie)收交(jiao)互目(mu)標聲(sheng)源(yuan)數據,并對交(jiao)互目(mu)標聲(sheng)源(yuan)進行(xing)到達時延差的估計;
s3、對估計后(hou)的到達時延差(cha),結合麥克風(feng)陣列的位置構造多個(ge)雙曲面(mian),并計算每個(ge)雙曲面(mian)的焦點(dian),確定交(jiao)互(hu)目(mu)標(biao)聲(sheng)(sheng)源(yuan)位置,從而(er)在交(jiao)互(hu)目(mu)標(biao)聲(sheng)(sheng)源(yuan)位置得到交(jiao)互(hu)目(mu)標(biao)聲(sheng)(sheng)源(yuan)的語音信號(hao);
s4、預(yu)(yu)(yu)處理(li)模塊對交互(hu)目標聲源的語(yu)音信號進行預(yu)(yu)(yu)處理(li),預(yu)(yu)(yu)處理(li)包括(kuo)預(yu)(yu)(yu)濾(lv)波、采樣、量化、模式轉(zhuan)換(huan)、預(yu)(yu)(yu)加重、加窗、分幀處理(li)、端點(dian)檢測以及生產(chan)mfcc_d特征參數過程;
s5、對預處理后的語(yu)音信號,聲紋密碼識別模塊提取特(te)征參(can)數,將特(te)征參(can)數與錄音庫的指令(ling)文本進行匹配(pei)。
下面為(wei)每(mei)一步(bu)驟的詳細描述。
s1、激活系(xi)統:通(tong)過(guo)實(shi)時檢(jian)(jian)測聲(sheng)源定(ding)位系(xi)統得到的語(yu)(yu)音(yin)信(xin)(xin)(xin)(xin)號(hao),從而達到激活聲(sheng)紋(wen)密碼識(shi)別系(xi)統。具體步驟:第(di)(di)一(yi)步將語(yu)(yu)音(yin)信(xin)(xin)(xin)(xin)號(hao)進(jin)(jin)行(xing)預(yu)處(chu)理包括預(yu)加(jia)(jia)重(zhong),加(jia)(jia)窗和(he)分幀(zhen)處(chu)理。第(di)(di)二(er)步進(jin)(jin)行(xing)每幀(zhen)信(xin)(xin)(xin)(xin)號(hao)幅(fu)度(du)值(zhi)(zhi)得求取。第(di)(di)三(san)步根據(ju)實(shi)驗(yan)(yan)得到語(yu)(yu)音(yin)信(xin)(xin)(xin)(xin)號(hao)與噪(zao)聲(sheng)信(xin)(xin)(xin)(xin)噪(zao)比轉化為(wei)幅(fu)度(du)差(cha)(cha)的t設定(ding)為(wei)判決門限值(zhi)(zhi),如果(guo)第(di)(di)二(er)幀(zhen)與第(di)(di)一(yi)幀(zhen)之差(cha)(cha)大于t,則(ze)認(ren)為(wei)進(jin)(jin)入靜默期,第(di)(di)三(san)幀(zhen)與第(di)(di)二(er)幀(zhen)之差(cha)(cha)小(xiao)于t則(ze)判斷是(shi)(shi)激活標志(zhi),通(tong)過(guo)緩存的處(chu)理從前一(yi)幀(zhen)開始進(jin)(jin)行(xing)語(yu)(yu)音(yin)信(xin)(xin)(xin)(xin)號(hao)的確定(ding),通(tong)過(guo)判斷是(shi)(shi)否是(shi)(shi)語(yu)(yu)音(yin)信(xin)(xin)(xin)(xin)號(hao)去(qu)進(jin)(jin)行(xing)聲(sheng)紋(wen)密碼系(xi)統。語(yu)(yu)音(yin)信(xin)(xin)(xin)(xin)號(hao)的確定(ding)是(shi)(shi)通(tong)過(guo)實(shi)驗(yan)(yan)所設定(ding)的語(yu)(yu)音(yin)信(xin)(xin)(xin)(xin)號(hao)的能(neng)量值(zhi)(zhi)去(qu)確定(ding)是(shi)(shi)否是(shi)(shi)語(yu)(yu)音(yin)信(xin)(xin)(xin)(xin)號(hao)。這樣一(yi)來(lai),就會不輕易的啟動聲(sheng)紋(wen)識(shi)別系(xi)統,降低了系(xi)統的功耗。盡可能(neng)讓(rang)系(xi)統處(chu)于休(xiu)眠狀(zhuang)態(tai)。也防(fang)止虛檢(jian)(jian)和(he)漏檢(jian)(jian)。
s2、聲源(yuan)定(ding)位語音增強(qiang)模(mo)塊:第(di)(di)一(yi)(yi)(yi)步:基于時(shi)(shi)延估(gu)計(ji)(ji)的(de)(de)(de)(de)聲源(yuan)定(ding)位系統估(gu)計(ji)(ji)出(chu)聲源(yuan)位置,具體實(shi)現(xian)步驟(zou),第(di)(di)一(yi)(yi)(yi)階(jie)段(duan),到達(da)時(shi)(shi)延差估(gu)計(ji)(ji),通過麥克(ke)風陣(zhen)列接收(shou)的(de)(de)(de)(de)數據,估(gu)計(ji)(ji)來自交(jiao)互目標聲源(yuan)的(de)(de)(de)(de)信號(hao)到達(da)陣(zhen)列各個(ge)陣(zhen)元(yuan)的(de)(de)(de)(de)時(shi)(shi)間差;第(di)(di)二(er)階(jie)段(duan),交(jiao)互目標聲源(yuan)定(ding)位,利用第(di)(di)一(yi)(yi)(yi)階(jie)段(duan)得到的(de)(de)(de)(de)到達(da)時(shi)(shi)延差,結合麥克(ke)風的(de)(de)(de)(de)位置構造(zao)多(duo)個(ge)雙(shuang)曲(qu)面,在一(yi)(yi)(yi)定(ding)的(de)(de)(de)(de)最(zui)優準(zhun)則和條件下,計(ji)(ji)算各個(ge)雙(shuang)曲(qu)面焦點,確定(ding)交(jiao)互目標聲源(yuan)位置。具體實(shi)現(xian)過程,根據麥克(ke)風接收(shou)信號(hao)模(mo)型,忽略信號(hao)幅度衰(shuai)減(jian),得兩個(ge)麥克(ke)風接收(shou)的(de)(de)(de)(de)信號(hao)為:
y1(t)=s(t)+n1(t)(3-23)
y2(t)=s(t-d)+n2(t)(3-24)
其中,s(t)是交(jiao)互目標(biao)聲源信號,d是信號到達兩個(ge)麥克風的相(xiang)對時(shi)間延遲;n1(t)、n2(t)都(dou)為加性(xing)噪聲干擾。
則(ze)y1(t),y2(t)的互相關(guan)函數r12(τ)為:
其中y1(ω)、y2(ω)分(fen)別(bie)是y1(t)、y2(t)的(de)(de)(de)傅里葉變換(huan),ψ12為廣(guang)義互相關法頻域(yu)的(de)(de)(de)加權(quan)函(han)數。加權(quan)函(han)數比(bi)較靈活,可以根(gen)據(ju)不(bu)同的(de)(de)(de)噪聲情況,選(xuan)擇不(bu)同的(de)(de)(de)加權(quan)函(han)數,以使r12(τ)具有較尖(jian)銳(rui)的(de)(de)(de)峰值。
廣(guang)(guang)義互相(xiang)(xiang)關函(han)數(shu)法原理和(he)結(jie)構較為簡單,基于某種最(zui)優原則在(zai)(zai)頻域對麥克風(feng)接收的(de)(de)(de)信號進行加權(quan),具有較好的(de)(de)(de)抑(yi)制噪聲(sheng)(sheng)的(de)(de)(de)能力,比較適合單聲(sheng)(sheng)源的(de)(de)(de)時(shi)延估計。但是,廣(guang)(guang)義互相(xiang)(xiang)關頻域加權(quan)函(han)數(shu)的(de)(de)(de)計算需要知道聲(sheng)(sheng)源信號和(he)加性(xing)(xing)噪聲(sheng)(sheng)的(de)(de)(de)相(xiang)(xiang)關先驗知識,而在(zai)(zai)實(shi)際應(ying)用場(chang)景中,信號和(he)噪聲(sheng)(sheng)性(xing)(xing)質(zhi)是事(shi)先是無法知道的(de)(de)(de)。而且,在(zai)(zai)低(di)信噪比和(he)有限長的(de)(de)(de)觀察窗(chuang)情況下,使用通過觀察的(de)(de)(de)數(shu)據對加權(quan)函(han)數(shu)的(de)(de)(de)估計值代替加權(quan)函(han)數(shu)的(de)(de)(de)理論值,往往導致廣(guang)(guang)義互相(xiang)(xiang)關法的(de)(de)(de)性(xing)(xing)能大(da)大(da)低(di)于理論性(xing)(xing)能。
實際的(de)(de)(de)人(ren)機語(yu)音(yin)(yin)交互(hu)場景主(zhu)要(yao)以(yi)單目標(biao)(biao)聲源交互(hu)為主(zhu),目標(biao)(biao)語(yu)音(yin)(yin)雖然在傳播中易(yi)受(shou)環境(jing)噪聲與其他說話者(zhe)的(de)(de)(de)干擾,但目標(biao)(biao)語(yu)音(yin)(yin)波形中幅度較大(da)的(de)(de)(de)信(xin)號(hao)(hao)在進(jin)行(xing)噪聲疊加時(shi)(shi),相對變化較小(xiao),保持原有的(de)(de)(de)時(shi)(shi)域特征。則(ze)可以(yi)通過設定合適的(de)(de)(de)閾值對接收(shou)的(de)(de)(de)信(xin)號(hao)(hao)進(jin)行(xing)篩選,忽略(lve)小(xiao)于(yu)閾值的(de)(de)(de)信(xin)號(hao)(hao),以(yi)大(da)于(yu)閾值的(de)(de)(de)信(xin)號(hao)(hao)為基準(zhun)通過互(hu)相關函數估計(ji)兩(liang)信(xin)號(hao)(hao)的(de)(de)(de)相對時(shi)(shi)延。基于(yu)此本(ben)文提出一種(zhong)先對接收(shou)信(xin)號(hao)(hao)進(jin)行(xing)閾值判(pan)決再做(zuo)相關的(de)(de)(de)聲達時(shi)(shi)延差(tdoa)估計(ji)方法,算法框架如圖2所示,具體為:
麥克風(feng)陣(zhen)列均勻直線陣(zhen)列的(de)近場寬(kuan)接(jie)收模型中,第i個麥克風(feng)接(jie)收到的(de)信號xi(t)為:
式中,
首先,為了確保(bao)時延差的(de)估(gu)計精度,對(dui)麥克風接收到的(de)信號進行插值(zhi)處理,得(de)到xi(n)。
然(ran)后,設定一個(ge)較大的(de)(de)(de)(de)(de)閾(yu)值a0,根據式(3-27)對插值后的(de)(de)(de)(de)(de)xi(n)進行(xing)閾(yu)值判(pan)決處理。由(you)于目標(biao)語音在(zai)接收的(de)(de)(de)(de)(de)信號中(zhong)(zhong)以(yi)主導的(de)(de)(de)(de)(de)成分存(cun)在(zai),所以(yi)在(zai)選(xuan)取合適的(de)(de)(de)(de)(de)閾(yu)值進行(xing)判(pan)決后,a0在(zai)xi'(n)中(zhong)(zhong)的(de)(de)(de)(de)(de)位(wei)置及(ji)數量(liang)大都(dou)由(you)目標(biao)語音決定,而只受(shou)少(shao)量(liang)的(de)(de)(de)(de)(de)干(gan)擾影(ying)響(xiang)。即由(you)xi'(n)之間的(de)(de)(de)(de)(de)時延差可精確(que)估(gu)計xi(t)之間的(de)(de)(de)(de)(de)時延差。
閾(yu)值(zhi)(zhi)(zhi)(zhi)的(de)(de)(de)選取(qu)極其關鍵(jian),過(guo)(guo)小的(de)(de)(de)閾(yu)值(zhi)(zhi)(zhi)(zhi)不但會增(zeng)加(jia)計算(suan)量,而且在閾(yu)值(zhi)(zhi)(zhi)(zhi)判決后會殘留大(da)量的(de)(de)(de)噪聲干(gan)擾,進(jin)而影響聲達時(shi)延(yan)差的(de)(de)(de)估計,導致(zhi)(zhi)(zhi)定(ding)位誤(wu)差的(de)(de)(de)增(zeng)大(da);而過(guo)(guo)大(da)的(de)(de)(de)閾(yu)值(zhi)(zhi)(zhi)(zhi)會導致(zhi)(zhi)(zhi)大(da)量的(de)(de)(de)目(mu)標語音信息在閾(yu)值(zhi)(zhi)(zhi)(zhi)判決中丟失,而且易受突(tu)發強(qiang)噪聲的(de)(de)(de)干(gan)擾,從而導致(zhi)(zhi)(zhi)錯誤(wu)地估計聲達時(shi)延(yan)差。本文通過(guo)(guo)二次均(jun)值(zhi)(zhi)(zhi)(zhi)操作(zuo)完成閾(yu)值(zhi)(zhi)(zhi)(zhi)a0的(de)(de)(de)選取(qu),第一(yi)次操作(zuo)獲取(qu)觀察(cha)時(shi)間段內信號(hao)絕(jue)對(dui)值(zhi)(zhi)(zhi)(zhi)均(jun)值(zhi)(zhi)(zhi)(zhi),第二次選取(qu)觀察(cha)時(shi)間段內大(da)于信號(hao)絕(jue)對(dui)值(zhi)(zhi)(zhi)(zhi)均(jun)值(zhi)(zhi)(zhi)(zhi)的(de)(de)(de)信號(hao),并求其均(jun)值(zhi)(zhi)(zhi)(zhi)作(zuo)為閾(yu)值(zhi)(zhi)(zhi)(zhi)a0的(de)(de)(de)值(zhi)(zhi)(zhi)(zhi)。
最后(hou),由式(3-28)對來自不同麥克風經(jing)過閾值判(pan)決后(hou)的(de)(de)信號進(jin)行相關處理(li),通過峰(feng)值檢測完(wan)成聲達時延差的(de)(de)估計。
rij(τ)=e[xi(n)xj(n+τ)](3-28)
通(tong)過(guo)閾(yu)值篩選(xuan)后,干擾噪(zao)聲信號被(bei)減弱(ruo),而目標交(jiao)互語音的(de)(de)時(shi)延信息被(bei)保(bao)留(liu)下(xia)來(lai)。在進行(xing)(xing)(xing)相關操作估計(ji)時(shi)延時(shi),能夠抑制噪(zao)聲的(de)(de)影響,大大提高時(shi)延估計(ji)的(de)(de)精確性(xing)。第(di)二步(bu):利用改進的(de)(de)加(jia)權波束形成(cheng)法(fa)進行(xing)(xing)(xing)語音增強。具(ju)體實現步(bu)驟:已知了(le)各(ge)個麥克風與目標聲源的(de)(de)距離,因(yin)此可(ke)以通(tong)過(guo)式(4-9)對(dui)各(ge)通(tong)道的(de)(de)信號進行(xing)(xing)(xing)加(jia)權。
其中(zhong)ωi為(wei)(wei)對(dui)第i個麥克風信號加權的權重(zhong),ri為(wei)(wei)第i個麥克風與目標聲源之間的距(ju)離(li),r0為(wei)(wei)信號接收模型原點處(chu)麥克風與目標聲源的距(ju)離(li)。
此時,如(ru)圖3所示,系統的輸出(chu)可(ke)用式(4-10)描述:
其(qi)中,yi(n)為(wei)第(di)i麥(mai)(mai)克風(feng)接(jie)收(shou)到(dao)的(de)語音信(xin)(xin)號。δti為(wei)交(jiao)互目(mu)(mu)標聲源信(xin)(xin)號傳播(bo)到(dao)第(di)i個麥(mai)(mai)克風(feng)在(zai)采(cai)樣域的(de)時間延遲,可以通過交(jiao)互目(mu)(mu)標聲源的(de)位置信(xin)(xin)息、語音信(xin)(xin)號傳播(bo)的(de)速度、以及采(cai)用頻(pin)率來(lai)確(que)定,關于交(jiao)互目(mu)(mu)標聲源的(de)定位,在(zai)第(di)三(san)章(zhang)已(yi)經做了詳細(xi)地討論(lun)。m為(wei)接(jie)收(shou)信(xin)(xin)號的(de)麥(mai)(mai)克風(feng)數(shu)。
假(jia)設每個麥(mai)克(ke)風接(jie)收的信號(hao)具有相同的統(tong)計特性,均值都為(wei)零,功率譜(pu)為(wei)φnn(ω)。經過時間補償后,各個通道的信號(hao)關于交互目標語音s(n)達(da)到同步,則第i個麥(mai)克(ke)風經延遲(chi)補償后的信號(hao)為(wei):
其中,
由式(4-12)可知,根據(ju)目(mu)(mu)(mu)標聲源位置的(de)(de)遠近自適應調整通道加(jia)權的(de)(de)大小,不但(dan)能夠達到固定(ding)波束(shu)形成器(qi)那樣通過平均減弱噪聲干(gan)擾的(de)(de)目(mu)(mu)(mu)的(de)(de),同時還(huan)能最大化地(di)(di)利用信噪比較大通道的(de)(de)信號,更好地(di)(di)實(shi)現目(mu)(mu)(mu)標語(yu)音的(de)(de)增強。
s3、聲紋密碼(ma)識(shi)別系(xi)(xi)統(tong):此系(xi)(xi)統(tong)即相(xiang)關文本的相(xiang)關說話人二重識(shi)別系(xi)(xi)統(tong)。特征參數提取步(bu)驟如圖4所示,具體步(bu)驟為:
(1)把一幀語音信號x(n)進行離散小(xiao)波分解(層(ceng)數為3層(ceng)),形成頻(pin)帶0~0.5khz、0.5-1kh、1-2khz、2-4khz,求出每一個頻(pin)帶的小(xiao)波系數。
(2)求取每一(yi)層小波系(xi)數(shu)的頻譜(pu),每一(yi)層小波系(xi)數(shu)fft。
(3)頻(pin)譜(pu)(pu)拼(pin)(pin)接:近似系(xi)數(shu)(shu)(低(di)頻(pin)部分)的(de)(de)頻(pin)譜(pu)(pu)(圖中(zhong)的(de)(de)一(yi)半)直接放(fang)置在第一(yi)層(ceng);由(you)于高通信號(hao)(hao)抽取(qu)后(hou)(hou)下(xia)變頻(pin)在低(di)頻(pin)處產生(sheng)鏡像,所有細(xi)節系(xi)數(shu)(shu)(高頻(pin)部分)的(de)(de)頻(pin)譜(pu)(pu)(圖中(zhong)的(de)(de)一(yi)半)翻(fan)(fan)轉(zhuan)后(hou)(hou)按照分辨率(lv)由(you)小(xiao)到(dao)大(da)拼(pin)(pin)接;如此便拼(pin)(pin)接出了整個信號(hao)(hao)的(de)(de)頻(pin)譜(pu)(pu)(fft幅度(du)譜(pu)(pu)的(de)(de)對稱性),后(hou)(hou)半段(duan)則(ze)是(shi)拼(pin)(pin)接后(hou)(hou)頻(pin)譜(pu)(pu)的(de)(de)鏡像對稱。特殊地,人(ren)耳(er)可以聽到(dao)20hz到(dao)20khz的(de)(de)音頻(pin)信號(hao)(hao),但人(ren)說話的(de)(de)聲音頻(pin)率(lv)范(fan)圍在300hz到(dao)3400hz。因此第一(yi)層(ceng)細(xi)節系(xi)數(shu)(shu)(描(miao)述信號(hao)(hao)2-4khz)的(de)(de)頻(pin)譜(pu)(pu)會有一(yi)段(duan)接近零(ling)的(de)(de)數(shu)(shu)值,為減小(xiao)計算量,把第一(yi)層(ceng)細(xi)節系(xi)數(shu)(shu)頻(pin)譜(pu)(pu)的(de)(de)零(ling)值去掉后(hou)(hou)取(qu)前一(yi)半翻(fan)(fan)轉(zhuan)拼(pin)(pin)接。
(4)拼接好的頻譜求取能量(liang),通過(guo)mel濾波(bo)器組(zu),取對數(shu)能量(liang),經過(guo)dct變換得(de)到(dao)特(te)征(zheng)參(can)數(shu)dwt-mfc參(can)數(shu)。
通過(guo)trendedhmm進(jin)行用(yong)(yong)戶的(de)指(zhi)令文本進(jin)行訓練得(de)到(dao)每(mei)(mei)個用(yong)(yong)戶對應的(de)trendedhmm,即trendedhmm就是每(mei)(mei)個用(yong)(yong)戶的(de)指(zhi)令模(mo)型(xing)。指(zhi)令文本經特征(zheng)(zheng)參數提取之后得(de)到(dao)特征(zheng)(zheng)向量(liang)序列(lie),然(ran)后經過(guo)viterbi算法(fa)對每(mei)(mei)個序列(lie)進(jin)行分(fen)割。這時對模(mo)型(xing)的(de)狀(zhuang)態q,得(de)到(dao)相應的(de)特征(zheng)(zheng)向量(liang)序列(lie)。然(ran)后將(jiang)此特征(zheng)(zheng)向量(liang)序列(lie)與錄(lu)音庫(ku)所有用(yong)(yong)戶的(de)模(mo)型(xing)計算viterbi得(de)分(fen),取得(de)分(fen)最高的(de)那個為(wei)識別結(jie)果(guo)。
s4:錄音庫:采用基于dwt-mfc的(de)trendedhmm的(de)模型進行訓(xun)練(lian)每個(ge)用戶的(de)多遍的(de)指令文本(ben)進行訓(xun)練(lian)。
(1)假設系統用戶(hu)a,該用戶(hu)讀3遍“開機”的(de)(de)指令(ling)。對每一遍的(de)(de)文本(ben)進行dwt-mfc特征(zheng)參數的(de)(de)提取。得(de)到3個特征(zheng)向量(liang)序列(lie)。
(2)利(li)用viterbi算(suan)法對每個序列(lie)進行分割,將(jiang)多個特征向量序列(lie)合并為一個序列(lie)。
(3)利用(yong)sweep算法來(lai)估計(ji)模型(xing)參數(shu)。將(jiang)上述(shu)的(de)分割(ge)和優化進(jin)(jin)行(xing)迭代,直至viterbi得分進(jin)(jin)行(xing)收斂。得到每個用(yong)戶相對應的(de)模型(xing)參數(shu)。
總結(jie):在(zai)s1的存在(zai)下推到s2再到s3,然(ran)后將(jiang)s3與s4進行(xing)模板匹配(pei)。得(de)到結(jie)果。
采(cai)樣(yang):模擬信(xin)號(hao)首先被等間隔地取樣(yang),這時(shi)信(xin)號(hao)在時(shi)間上就不再連續了(le),但(dan)在幅度上還是連續的(de)。經過采(cai)樣(yang)處理之(zhi)后,模擬信(xin)號(hao)變成了(le)離(li)散時(shi)間信(xin)號(hao)。一般(ban)情況下(xia)取采(cai)樣(yang)頻(pin)率為8khz。
量(liang)化(hua):每個信(xin)(xin)號(hao)采樣的幅(fu)度以某個最(zui)小數量(liang)單位△的整數倍(bei)來度量(liang)。這時(shi)信(xin)(xin)號(hao)不(bu)僅(jin)在時(shi)間(jian)(jian)上(shang)不(bu)再(zai)連續,在幅(fu)度上(shang)也(ye)不(bu)連續了(le)。經過量(liang)化(hua)處(chu)理之(zhi)后,離散(san)時(shi)間(jian)(jian)信(xin)(xin)號(hao)變成了(le)數字信(xin)(xin)號(hao)。
預加重:通過傳遞函數為h(z)=1-αz-1的高(gao)通數字濾波(bo)器來實(shi)現預加重,其中a為預加重系數,一般(ban)為0.9<a<1,設n時刻(ke)的語音采樣值為x(n),經過預加重處理后結果為y(n)=x(n)-ax(n-1),這(zhe)里(li)取a=0.98。
加窗(chuang),分(fen)幀(zhen)(zhen)(zhen)(zhen)(zhen):進行預加重數字濾(lv)波處(chu)理(li)后,下面就(jiu)是進行加窗(chuang)分(fen)幀(zhen)(zhen)(zhen)(zhen)(zhen)處(chu)理(li),語(yu)音(yin)(yin)信號(hao)具有(you)短(duan)時(shi)平(ping)穩性(xing)(10--30ms內可(ke)以認為(wei)(wei)語(yu)音(yin)(yin)信號(hao)近似不(bu)變),這(zhe)(zhe)樣就(jiu)可(ke)以把語(yu)音(yin)(yin)信號(hao)分(fen)為(wei)(wei)一(yi)(yi)些短(duan)段(duan)來來進行處(chu)理(li),這(zhe)(zhe)就(jiu)是分(fen)幀(zhen)(zhen)(zhen)(zhen)(zhen),語(yu)音(yin)(yin)信號(hao)的(de)(de)(de)分(fen)幀(zhen)(zhen)(zhen)(zhen)(zhen)是采用可(ke)移(yi)(yi)動的(de)(de)(de)有(you)限(xian)長度的(de)(de)(de)窗(chuang)口進行加權的(de)(de)(de)方(fang)法(fa)來實現的(de)(de)(de)。一(yi)(yi)般(ban)每秒的(de)(de)(de)幀(zhen)(zhen)(zhen)(zhen)(zhen)數約為(wei)(wei)33-100幀(zhen)(zhen)(zhen)(zhen)(zhen),視情況而定。一(yi)(yi)般(ban)的(de)(de)(de)分(fen)幀(zhen)(zhen)(zhen)(zhen)(zhen)方(fang)法(fa)為(wei)(wei)交疊(die)分(fen)段(duan)的(de)(de)(de)方(fang)法(fa),前一(yi)(yi)幀(zhen)(zhen)(zhen)(zhen)(zhen)和后一(yi)(yi)幀(zhen)(zhen)(zhen)(zhen)(zhen)的(de)(de)(de)交疊(die)部(bu)分(fen)稱為(wei)(wei)幀(zhen)(zhen)(zhen)(zhen)(zhen)移(yi)(yi),幀(zhen)(zhen)(zhen)(zhen)(zhen)移(yi)(yi)與幀(zhen)(zhen)(zhen)(zhen)(zhen)長的(de)(de)(de)比值一(yi)(yi)般(ban)為(wei)(wei)0-0.5。
漢明窗函數如下:
漢明窗的時域和頻域波形,窗長n=61。
根據一種公共(gong)(gong)背景(jing)噪聲(sheng)(sheng)下(xia)激活(huo)式的(de)(de)(de)聲(sheng)(sheng)紋密碼安(an)全(quan)控(kong)制方(fang)法(fa)(fa),本(ben)發(fa)明提(ti)供了一種公共(gong)(gong)背景(jing)噪聲(sheng)(sheng)下(xia)激活(huo)式的(de)(de)(de)聲(sheng)(sheng)紋密碼安(an)全(quan)控(kong)制系(xi)統(tong)(tong)(tong),此系(xi)統(tong)(tong)(tong)分為兩個(ge)(ge)版塊(kuai),一個(ge)(ge)是(shi)錄(lu)音(yin)(yin)(yin)版塊(kuai),另一個(ge)(ge)是(shi)語(yu)音(yin)(yin)(yin)信號識(shi)別(bie)(bie)版塊(kuai),語(yu)音(yin)(yin)(yin)信號識(shi)別(bie)(bie)版塊(kuai)通過函數(shu)的(de)(de)(de)調(diao)用(yong)(yong)使用(yong)(yong)錄(lu)音(yin)(yin)(yin)版塊(kuai)。錄(lu)音(yin)(yin)(yin)程(cheng)序在vc++環境下(xia)采用(yong)(yong)widows系(xi)統(tong)(tong)(tong)中的(de)(de)(de)多媒(mei)體應用(yong)(yong)程(cheng)序接口實(shi)現語(yu)音(yin)(yin)(yin)信號錄(lu)制。信號識(shi)別(bie)(bie)的(de)(de)(de)過程(cheng)主(zhu)要是(shi)通過matlab語(yu)音(yin)(yin)(yin)仿真。做到控(kong)制及安(an)全(quan)的(de)(de)(de)統(tong)(tong)(tong)一性(xing),高效(xiao)性(xing),安(an)全(quan)性(xing)。本(ben)發(fa)明主(zhu)要應用(yong)(yong)于(yu)(yu)要求安(an)全(quan)系(xi)數(shu)較高的(de)(de)(de)智(zhi)能家居系(xi)統(tong)(tong)(tong)當(dang)中,本(ben)文主(zhu)要針對(dui)門禁和保險(xian)箱兩個(ge)(ge)對(dui)安(an)全(quan)要求較高的(de)(de)(de)背景(jing)下(xia),采用(yong)(yong)此方(fang)法(fa)(fa)。本(ben)系(xi)統(tong)(tong)(tong)主(zhu)要基于(yu)(yu)安(an)全(quan),快(kuai)速反(fan)應的(de)(de)(de)語(yu)音(yin)(yin)(yin)信號識(shi)別(bie)(bie)。
本系統整體模(mo)(mo)塊(kuai)(kuai)如圖5所示,包括(kuo)聲(sheng)源(yuan)定(ding)位拾(shi)取模(mo)(mo)塊(kuai)(kuai)、預處理模(mo)(mo)塊(kuai)(kuai)、激活(huo)識別(bie)模(mo)(mo)塊(kuai)(kuai)、聲(sheng)紋密碼識別(bie)模(mo)(mo)塊(kuai)(kuai)、指(zhi)令識別(bie)模(mo)(mo)塊(kuai)(kuai)以及錄音模(mo)(mo)板生成模(mo)(mo)塊(kuai)(kuai),聲(sheng)源(yuan)定(ding)位拾(shi)取模(mo)(mo)塊(kuai)(kuai)包括(kuo)麥克風陣(zhen)(zhen)列,麥克風陣(zhen)(zhen)列包括(kuo)若干麥克風(優選為3個(ge))。
其中,預(yu)處理(li)(li)(li)模塊:預(yu)處理(li)(li)(li)包(bao)括預(yu)波,采樣,量化,模式轉換(huan),預(yu)加(jia)(jia)重(zhong),加(jia)(jia)窗,分幀(zhen)處理(li)(li)(li),端(duan)點(dian)檢(jian)測,mfcc_d特征參數。頻(pin)率為(wei)16khz,分幀(zhen)處理(li)(li)(li)的(de)幀(zhen)長設置(zhi)為(wei)32ms,,幀(zhen)移和(he)幀(zhen)長的(de)比值為(wei)1/2,加(jia)(jia)窗為(wei)漢明窗。端(duan)點(dian)檢(jian)測采用基于(yu)能量和(he)過零(ling)率雙重(zhong)界(jie)限確(que)定語音的(de)起始點(dian)和(he)結(jie)束點(dian)。
聲(sheng)(sheng)源定位(wei)拾取模塊:語(yu)(yu)(yu)音是人(ren)機交(jiao)(jiao)互中最自(zi)然的方式,既不需要接(jie)觸或(huo)佩戴數據設備,也不存在視(shi)覺盲(mang)點(dian)。在基(ji)(ji)于(yu)語(yu)(yu)(yu)音的人(ren)機交(jiao)(jiao)互系統(tong)中,由于(yu)噪(zao)聲(sheng)(sheng)的影響,特別(bie)是交(jiao)(jiao)互環境(jing)中其他無關說話人(ren)語(yu)(yu)(yu)音的干擾,嚴重降低(di)了交(jiao)(jiao)互系統(tong)的性(xing)能。本系統(tong)在人(ren)機交(jiao)(jiao)互系統(tong)語(yu)(yu)(yu)音信號信噪(zao)比的提高,可以距離式的語(yu)(yu)(yu)音操作,突(tu)破(po)了手(shou)持式和佩戴設備對語(yu)(yu)(yu)音進行(xing)識別(bie)。本系統(tong)采(cai)用基(ji)(ji)于(yu)時延估計的聲(sheng)(sheng)源定位(wei)方法。
為更(geng)好(hao)地得到(dao)聲(sheng)源的(de)(de)(de)空間(jian)(jian)位(wei)置,基于(yu)麥(mai)克(ke)風(feng)線(xian)性均勻線(xian)陣(zhen),采用雙陣(zhen)列空間(jian)(jian)三維定(ding)位(wei)的(de)(de)(de)方法,提(ti)出了(le)一種由六個數字麥(mai)克(ke)風(feng)構成的(de)(de)(de)平(ping)行均勻線(xian)陣(zhen)拾音(yin)模(mo)塊。結合基于(yu)閾值判決(jue)(jue)的(de)(de)(de)聲(sheng)達時延(yan)差估計方法實現目標聲(sheng)源的(de)(de)(de)三維定(ding)位(wei)。在智能家居中(zhong)基于(yu)麥(mai)克(ke)風(feng)陣(zhen)列聲(sheng)源定(ding)位(wei)解決(jue)(jue)了(le)噪聲(sheng)抑制、混(hun)響消(xiao)除、聲(sheng)源測向、回聲(sheng)抵消(xiao)等等各個方面(mian)都得到(dao)了(le)良好(hao)的(de)(de)(de)解決(jue)(jue)。
采用(yong)matlab語(yu)言處理到(dao)的(de)信(xin)(xin)(xin)號(hao),使用(yong)圖6所示(shi)的(de)平(ping)行(xing)(xing)均勻線(xian)陣(zhen)三維(wei)信(xin)(xin)(xin)號(hao)接收模型(xing),每個子陣(zhen)列(lie)由3個全向數字(zi)麥(mai)克(ke)風構成,因為(wei)數字(zi)麥(mai)克(ke)風具(ju)有更好(hao)的(de)信(xin)(xin)(xin)噪比以及更好(hao)的(de)抗rf和emi能力。本系統(tong)將麥(mai)克(ke)風間距(ju)為(wei)15cm,陣(zhen)列(lie)間距(ju)為(wei)30cm,聲音在空氣中的(de)傳播速度定(ding)位340m/s,信(xin)(xin)(xin)號(hao)采樣(yang)頻率為(wei)16khz。通過延(yan)(yan)時疊加(jia)波束形成算(suan)法(fa)(fa),然后通過聲源(yuan)三維(wei)定(ding)位算(suan)法(fa)(fa)準確獲取目(mu)標(biao)聲源(yuan)的(de)位置(zhi)信(xin)(xin)(xin)息后,通過延(yan)(yan)時補償使各(ge)通道中目(mu)標(biao),語(yu)音信(xin)(xin)(xin)號(hao)同步(bu)后,再對各(ge)通道信(xin)(xin)(xin)號(hao)進(jin)行(xing)(xing)加(jia)權。
通過延(yan)時(shi)疊加波(bo)(bo)束形成(cheng)算法得到(dao)(dao)的(de)(de)是目標信(xin)號的(de)(de)增強(qiang)信(xin)號,可以通過延(yan)時(shi)疊加波(bo)(bo)束形成(cheng)算法達到(dao)(dao)5db以上的(de)(de)增強(qiang)效(xiao)果(guo)。達到(dao)(dao)去(qu)噪(zao)的(de)(de)效(xiao)果(guo),同時(shi)也達到(dao)(dao)空間距離式的(de)(de)語音識別。
錄(lu)音(yin)生成模(mo)板模(mo)塊(kuai):錄(lu)音(yin)程(cheng)(cheng)序(xu)(xu)在vc++環境下采用widows系(xi)統中的(de)多媒體(ti)應用程(cheng)(cheng)序(xu)(xu)接口(kou)實(shi)現語音(yin)信號(hao)錄(lu)制。使用多媒體(ti)應用程(cheng)(cheng)序(xu)(xu)接口(kou)編程(cheng)(cheng)簡單、控制方(fang)便。
錄(lu)音(yin)(yin)(yin)模塊有2個板塊的(de)錄(lu)音(yin)(yin)(yin)訓練(lian),存儲三個錄(lu)音(yin)(yin)(yin)庫,通過(guo)函數的(de)調用(yong)來匹(pi)配相對應的(de)語(yu)音(yin)(yin)(yin)庫。聲(sheng)紋密碼語(yu)音(yin)(yin)(yin)庫:采用(yong)統計(ji)模型(xing)的(de)隱馬爾(er)可夫模型(xing)來描述語(yu)音(yin)(yin)(yin)模型(xing),進行(xing)語(yu)音(yin)(yin)(yin)行(xing)庫的(de)訓練(lian)。經過(guo)三次語(yu)音(yin)(yin)(yin)模板的(de)錄(lu)制,提(ti)高了(le)識別的(de)穩定性,排(pai)除了(le)偶然性。
激活識(shi)別(bie)系統:通過(guo)聲(sheng)(sheng)源定位(wei)麥克風(feng)拾取系統對(dui)聲(sheng)(sheng)音(yin)實時的(de)(de)(de)收入(ru)語音(yin)信(xin)(xin)號,通過(guo)實時檢測的(de)(de)(de)語音(yin)信(xin)(xin)號的(de)(de)(de)平(ping)均幅(fu)度(du)差(cha)(實時收入(ru)聲(sheng)(sheng)音(yin)的(de)(de)(de)幅(fu)度(du)與(yu)背(bei)景噪(zao)聲(sheng)(sheng)下的(de)(de)(de)幅(fu)度(du)的(de)(de)(de)差(cha)值),當其差(cha)值達(da)到一定的(de)(de)(de)時候通過(guo)放大電路激活聲(sheng)(sheng)紋(wen)密碼識(shi)別(bie)模塊(kuai),背(bei)景噪(zao)聲(sheng)(sheng)下的(de)(de)(de)幅(fu)度(du)通過(guo)實驗來設定。
聲(sheng)(sheng)紋(wen)(wen)密(mi)碼(ma)(ma)模塊:此(ci)模塊是(shi)基于(yu)(yu)特定人的(de)自有密(mi)碼(ma)(ma)設定之后的(de)聲(sheng)(sheng)紋(wen)(wen)密(mi)碼(ma)(ma)識(shi)別(bie),匹配(pei)(pei)用戶自主設定的(de)密(mi)碼(ma)(ma),當(dang)進入(ru)聲(sheng)(sheng)紋(wen)(wen)密(mi)碼(ma)(ma)識(shi)別(bie)模塊時,提(ti)示用戶說(shuo)出密(mi)碼(ma)(ma)。此(ci)模塊基于(yu)(yu)模板(ban)匹配(pei)(pei)的(de)viterb算法進行聲(sheng)(sheng)紋(wen)(wen)密(mi)碼(ma)(ma)識(shi)別(bie)。
指(zhi)令(ling)(ling)識(shi)(shi)(shi)別(bie)(bie)(bie)模(mo)塊:此(ci)模(mo)塊主要操(cao)作(zuo)門禁和保險箱(xiang)的命令(ling)(ling)操(cao)作(zuo),指(zhi)令(ling)(ling)內容設為“打(da)開(kai)“,在指(zhi)令(ling)(ling)識(shi)(shi)(shi)別(bie)(bie)(bie)中,本(ben)系統采(cai)用(yong)調整后(hou)的動(dong)(dong)態(tai)時(shi)間(jian)規整算法,而且dtw的時(shi)間(jian)相關性只能識(shi)(shi)(shi)別(bie)(bie)(bie)分辨(bian)指(zhi)令(ling)(ling),時(shi)間(jian)非常短(duan),符合(he)我們建立(li)此(ci)系統的初衷。由于時(shi)間(jian)規整受到(dao)短(duan)時(shi)的限制,在指(zhi)令(ling)(ling)識(shi)(shi)(shi)別(bie)(bie)(bie)中雖然語句是比(bi)較(jiao)短(duan)的,但是動(dong)(dong)態(tai)時(shi)間(jian)規整算法還是有很多(duo)約束。為了(le)避免因為訓練效果(guo)不好(hao)影響識(shi)(shi)(shi)別(bie)(bie)(bie)率(lv)(lv),在使用(yong)改進后(hou)的動(dong)(dong)態(tai)時(shi)間(jian)規整的上還采(cai)用(yong)了(le)多(duo)種路徑搜(sou)索。結果(guo)證明(ming)識(shi)(shi)(shi)別(bie)(bie)(bie)指(zhi)令(ling)(ling)的識(shi)(shi)(shi)別(bie)(bie)(bie)率(lv)(lv)比(bi)較(jiao)高。
盡管已經示出(chu)和描述了本(ben)發(fa)明的(de)實施例,對于本(ben)領域的(de)普(pu)通技術人員而言,可以理解(jie)的(de)是(shi),在不(bu)脫離本(ben)發(fa)明的(de)原理和精神的(de)情況下可以對這些實施例進(jin)行(xing)多(duo)種等效的(de)變化、修改、替換和變型,本(ben)發(fa)明的(de)范圍(wei)由所附權利要求及其等同范圍(wei)限定(ding)。