人機交互中的語音喚醒方法及語音識別裝置的制造方法

文(wen)檔序號：10552461閱讀：1310來源：國知局(ju)

人機交互中的語音喚醒方法及語音識別裝置的制造方法
【專利摘要】本申請公開了人機交互中的語音喚醒方法和語音識別裝置，所述語音喚醒方法包括以下步驟：靜音檢測步驟，包括：在機器檢測到聲音能量時，進行喚醒詞檢出，如果聲音能量包括喚醒詞，則喚醒機器開始語音識別，否則，啟動圖像檢測；圖像檢測步驟，包括：在圖像檢測中，如果檢測到人，則喚醒機器開始語音識別，否則繼續檢測聲音能量。通過本發明的方法和語音識別裝置，能夠結合圖像檢測，實現自然地人機交互，同時保持待機狀態下的低電力消耗。
【專利說明】
人機交互中的語音喚醒方法及語音識別裝置
技術領域
[0001]本公開一般涉及人機交互技術領域，具體涉及人機交互中的語音喚醒方法及語音識別裝置。
【背景技術】
[0002]當前，越來越多的電子產品支持語音對話的交互方式，這些電子產品包括手機、平板電腦、其它手持智能設備等。同時，為了節省產品的電力消耗和提高續航時間，往往設置多種休眠模式，在休眠模式下，更多的硬件電路停止工作，消耗的功率更低，一旦恢復正常工作，則需要從休眠模式下喚醒，其中一種喚醒方式就是通過語音對話喚醒。
[0003]在人機交互中，休眠模式的喚醒通常有兩種方式，一種是按鍵喚醒，即通過按壓電子產品(例如手機)上的按鍵，退出休眠模式;另一種是語音喚醒詞喚醒，用戶通過發出喚醒詞的語音，被手機識別出，退出休眠模式。設置這種喚醒的原因，是機器錄音檢出喚醒詞的功耗要遠小于一直處于命令詞識別狀態的功耗。一個典型的例子是蘋果公司的siri，其實現了這兩種喚醒方式。只有喚醒后，用戶的語音才會被機器作為語音識別的輸入，用戶才可以繼續說出自己的命令。這樣，在非手持的情況下，幾乎每次想向siri發出指令，都需要先說“嘿，siri”，這非常不自然。大部分人機交互產品，都沿襲了siri的這種交互方式。上述方法，存在人機交互很不自然，用戶每次都需要喚醒機器再說命令詞，與人的自然交流差別很大的弊端。
[0004]有的公司開始改進這種方式，比如，設置一個超時機制，在一次喚醒后，只有用戶15秒內都不說話，機器才進入待喚醒模式，需要再次喚醒，才能發出指令，否則，可以直接說出指令。
[0005]這種設置超時機制的方法，雖然一定程度上減輕了用戶喚醒的次數，但是設置多長時間的超時合適沒有邏輯依據，只是大致的判斷。

【發明內容】

[0006]鑒于現有技術中的上述缺陷或不足，期望提供一種人機交互自然，又節省電子產品的待機功耗的技術方案。
[0007]在本發明的第一方面，提供一種人機交互中的語音喚醒方法，所述語音喚醒方法包括以下步驟:
[0008]靜音檢測步驟，包括在機器檢測到聲音能量時，進行喚醒詞檢出，如果聲音能量包括喚醒詞，則喚醒機器開始語音識別，否則啟動圖像檢測，轉入圖像檢測步驟；
[0009]圖像檢測步驟，包括在圖像檢測中，如果檢測到人，則喚醒機器開始語音識別，否則轉入靜音檢測步驟，繼續檢測聲音能量。
[0010]可選地，根據上述語音喚醒方法，在所述圖像檢測步驟中，所述檢測到人是檢測到人的頭部。
[0011]可選地，根據上述語音喚醒方法，在所述圖像檢測步驟中，所述檢測到人是檢測到人的臉部。
[0012]可選地，根據上述語音喚醒方法，在所述圖像檢測步驟中，如果檢測到人的臉部是識別過的臉部，則還主動發出語音識別狀態就緒的語音提示。
[0013]可選地，根據上述語音喚醒方法，在所述圖像檢測步驟中，如果檢測到人的臉部是識別過的臉部，則還以已存儲的昵稱或尊稱或戲墟稱呼主動發出語音提示。
[0014]可選地，根據上述語音喚醒方法，在所述靜音檢測步驟中，如果聲音能量不包括喚醒詞，則利用聲源定位信息輔助調整攝像頭的拍攝角度，進行圖像檢測。
[0015]可選地，根據上述語音喚醒方法，在喚醒機器開始語音識別后，在設定閾值的時間內，機器持續進行語音識別。
[0016]可選地，根據上述語音喚醒方法，通過對上述語音喚醒過程中語音識別、語義理解、圖像檢測和識別等多種方式的輸入和輸出結果的分析，建立學習模型，判斷是否進入喚醒后狀態的人機對話模式。
[0017]在本發明的第二方面，提供一種人機交互中的語音識別裝置，所述語音識別裝置包括:
[0018]靜音檢測部件，用于檢測聲音能量，如果檢測到聲音，則啟動喚醒詞識別部件；
[0019]喚醒詞識別部件，用于進行喚醒詞檢出，如果檢測到喚醒詞，則啟動語音喚醒部件，否則，啟動圖像檢測部件；
[0020]圖像檢測部件，用于圖像檢測，如果檢測到人，則啟動語音喚醒部件，否則指示靜音檢測部件繼續檢測聲音；
[0021 ]語音喚醒部件，用于喚醒機器開始語音識別。
[0022]可選地，根據上述的語音識別裝置，所述圖像檢測部件檢測到人是檢測到人的頭部。
[0023]可選地，根據上述的語音識別裝置，所述圖像檢測部件檢測到人是檢測到人的臉部。
[0024]可選地，根據上述的語音識別裝置，所述圖像檢測部件如果檢測到人的臉部是識別過的臉部，則還主動發出語音識別狀態就緒的語音提示。
[0025]可選地，根據上述的語音識別裝置，所述圖像檢測部件如果檢測到人的臉部是識別過的臉部，則還以已存儲的昵稱或尊稱或戲墟稱呼主動發出語音提示。
[0026]可選地，根據上述的語音識別裝置，所述靜音檢測部件還用于如果檢測到的聲音能量不包括喚醒詞，則利用聲源定位信息輔助調整攝像頭的拍攝角度，進行圖像檢測。
[0027]可選地，根據上述的語音識別裝置，所述語音識別裝置在被喚醒開始語音識別后，在設定閾值的時間內，能夠持續進行語音識別。
[0028]可選地，根據上述的語音識別裝置，所述語音識別裝置通過對上述語音喚醒過程中語音識別、語義理解、圖像檢測和識別等多種方式的輸入和輸出結果的分析，建立學習模型，判斷是否進入喚醒后狀態的人機對話模式。
[0029]本發明通過將圖像檢測和語音識別的信息結合，來判斷機器是否進入喚醒后狀態。結合圖像檢測，可以在人臉部不離開手機時，繼續進行語音識別，減少喚醒詞的使用，使人機對話更自然。通過靜音檢測來觸發圖像檢測，又可以避免總是運行圖像檢測帶來的過多功耗。另外，根據圖像檢測的不同內容，機器可以具有不同的反應，不同的主動說話內容，實現更生動的人機交互體驗。通過圖像信息，可以降低誤喚醒的概率。
[0030]通過本發明提供的語音喚醒方法和語音識別裝置，能夠結合圖像檢測，實現自然地人機交互，同時保持待機狀態下的低電力消耗。
【附圖說明】
[0031]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述，本申請的其它特征、目的和優點將會變得更明顯:
[0032]圖1是根據本發明的一個實施例的語音喚醒方法的流程圖；
[0033]圖2示出根據本發明的語音識別裝置的運行狀態轉換圖；
[0034]圖3是根據本發明的一個實施例的語音識別裝置的方框圖。
【具體實施方式】
[0035]下面結合附圖和實施例對本申請作進一步的詳細說明。可以理解的是，此處所描述的具體實施例僅僅用于解釋相關發明，而非對該發明的限定。另外還需要說明的是，為了便于描述，附圖中僅示出了與發明相關的部分。
[0036]需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本申請。
[0037]先參考圖1，其是根據本發明的一個實施例的語音喚醒方法的流程圖。通常情況下，具有人機語音交互功能的電子產品，例如手機或平板電腦，具有多種運行狀態。例如，圖2示出根據本發明的語音識別裝置的運行狀態轉換圖，其多種運行狀態包括:無檢測狀態(關機)，如機器斷電，無任何程序在運行，功耗為零或者極低;靜音檢測狀態，此時機器的靜音檢測模塊在工作，功耗低；喚醒詞檢測狀態，此時能檢出喚醒詞，功耗較低；圖像檢測狀態，此時能檢測出人或人臉等;語音喚醒后狀態(命令詞/通用識別狀態)，此時能識別出命令詞或者非限定詞的句子，功耗高。
[0038]在靜音檢測狀態下，機器具有極低的功耗，以此來保持長時間工作的能力。在語音喚醒后狀態下，機器在后臺運行一個或一些應用程序，但同時機器能夠接受操作者的語音輸入指令，以此來完成一系列的任務。在使用語音識別功能前，都可以使僅靜音檢測模塊在工作，以此來降低功耗。
[0039]返回至圖1。在步驟SlOl，在靜音檢測狀態，機器以極低功耗循環地執行靜音檢測的例行程序，檢測機器周圍的聲音能量輸入。在步驟S102，一旦機器檢測到周圍達到一定大小的聲音能量，則啟動喚醒詞識別模塊，進行喚醒詞識別(步驟S103)。
[0040]在步驟S104，喚醒詞識別模塊識別采集的聲音能量中是否包含機器指定的關鍵詞，稱為喚醒詞。喚醒詞可以是產品名稱或者語音識別程序的名稱，例如，“語音助手!”，“Siri”等。如果聲音能量中包括指定的喚醒詞，則機器直接進入語音喚醒后的狀態，即步驟S107，開始接受操作者的語音輸入，進行語音內容識別。否則，如果聲音能量中不包含指定的喚醒詞，則在步驟S105啟動圖像檢測，進一步確認操作者是否要輸入語音。
[0041 ]在步驟S105中，啟動圖像檢測。在步驟S106，如果圖像檢測到人，則可以判定操作者準備進行語音輸入，可以在步驟S107中使機器進入語音喚醒后的狀態，開始接受操作者的語音輸入，進行語音內容識別。如果圖像檢測不到人，則返回繼續靜音檢測，保持低功耗。
[0042]可選地，檢測到聲音能量后，啟動圖像檢測，可以以多種方式檢測人。例如，檢測人的正臉或側臉，并使機器做出不同的主動反應。例如，當檢測到人的正臉時，機器發出“歡迎主人!”，“你看著我干嘛?”的語音招呼。檢測到側臉時，機器發出“嗨!你想說什么”，“你又開小差啦”。只是檢測到人的頭部而沒檢測到臉時，機器發出“沒聽清您說什么”。機器檢測人或人臉的方法，可以采用任何現有技術進行。
[0043]可選地，如果聲音能量中檢測到了喚醒詞，但是圖像沒有檢測到說話人，機器可以不主動發出聲音，避免或減少誤喚醒對用戶的干擾，例如，機器可以不說“沒聽清您說什么”這樣的話。
[0044]可選地，檢測到聲音能量后，如果不包含喚醒詞，可以利用聲源定位信息輔助調整攝像頭的角度，使得攝像頭更容易找到人。聲源定位可以采用現有技術獲得聲源的角度，攝像頭再依此定位。
[0045]可選地，還可以將人臉存儲起來，當圖像檢測識別出當前人臉時已經識別過的人臉時，機器做出更生動活潑的語音招呼，使操作者具有更親切的體驗。例如，可以拍攝自己、家人或好友的臉部圖像存儲，并給予適當的存儲命名，這種存儲命名可以使用某種昵稱或者尊稱或戲墟稱呼，當好友或家人再用此機器語音交互時，一旦機器識別出人臉時已經存儲的人臉，則以昵稱或尊稱或戲墟的稱呼進行主動招呼。這會強化和增進使用者的社會或社交關系，給客戶帶來提升的體驗。
[0046]另外，通過對上述語音喚醒過程中語音識別、語義理解、圖像檢測和識別等多種方式的輸入和輸出結果的分析，建立學習模型，判斷是否進入喚醒后狀態的人機對話模式，從而提高喚醒操作的準確性，提升用戶體驗。例如，機器發現上一次喚醒后，并沒有進行有效的人機交互，如沒有人和他對話，那么機器就學到一種誤喚醒的場景，學習以后，以后在這種情況下，就不會被喚醒。同樣，在喚醒后，有成功的語音交互的，機器會繼續強化這種場景下的喚醒。
[0047]可選地，可以在機器進入語音喚醒后的狀態后仍進行圖像檢測，當檢測到人或人臉而間隔較長時間檢測不到語音輸入時，可以用語音方式主動提醒操作者進行語音輸入。例如，可以設定操作者在機器被語音喚醒后15秒或20秒內沒有語音輸入，則機器發出“你想說什么?”的語音提示。
[0048]圖3示出根據本發明的實施例提供的一種語音識別裝置I。該語音識別裝置包括靜音檢測部件11，用于檢測聲音能量，如果檢測到聲音，則啟動喚醒詞識別部件;喚醒詞識別部件12，用于進行喚醒詞檢出，如果檢測到喚醒詞，則啟動語音喚醒部件，否則，啟動圖像檢測部件；圖像檢測部件13，用于圖像檢測，如果檢測到人，則啟動語音喚醒部件，否則指示靜音檢測部件11繼續檢測聲音;語音喚醒部件14，用于喚醒機器開始語音識別。
[0049]可選地，根據上述的語音識別裝置，所述圖像檢測部件檢測到人是檢測到人的頭部。
[0050]可選地，根據上述的語音識別裝置，所述圖像檢測部件檢測到人是檢測到人的臉部。
[0051]可選地，根據上述的語音識別裝置，所述圖像檢測部件如果檢測到人的臉部是識別過的臉部，則還主動發出語音識別狀態就緒的語音提示。
[0052]可選地，根據上述的語音識別裝置，所述靜音檢測部件還用于如果檢測到的聲音能量不包括喚醒詞，則利用聲源定位信息輔助調整攝像頭的拍攝角度，進行圖像檢測。
[0053]可選地，根據上述的語音識別裝置，所述語音識別裝置在被喚醒開始語音識別后，在設定閾值的時間內，能夠持續進行語音識別。
[0054]本發明通過將圖像檢測和語音識別的信息結合，來判斷機器是否進入喚醒后狀態。結合圖像檢測，可以在人臉部不離開手機時，繼續進行語音識別，減少喚醒詞的使用，使人機對話更自然。
[0055]通過靜音檢測來觸發圖像檢測，又可以避免總是運行圖像檢測帶來的過多功耗。另外，根據圖像檢測的不同內容，機器可以具有不同的反應，不同的主動說話內容，實現更生動的人機交互體驗。通過結合圖像信息，可以降低誤喚醒的概率。
[0056]通過本發明提供的語音喚醒方法和語音識別裝置，能夠結合圖像檢測，實現自然地人機交互，同時保持待機狀態下的低電力消耗。
[0057]應當注意，本發明的上述語音喚醒方法和語音識別裝置，可以用硬件或硬件與軟件相結合的方式來實現。其可以用通用硬件或專用電路來實現。
[0058]應當注意，盡管在附圖中以特定順序描述了本發明方法的操作，但是，這并非要求或者暗示必須按照該特定順序來執行這些操作，或是必須執行全部所示的操作才能實現期望的結果。相反，流程圖中描繪的步驟可以改變執行順序。例如，也可以在啟動圖像檢測后，進一步檢測聲音能量。在人臉接近人機交互界面時，先喚醒圖像檢測，再進一步結合聲音檢測。附加地或備選地，可以省略某些步驟，將多個步驟合并為一個步驟執行，和/或將一個步驟分解為多個步驟執行。
【主權項】
1.一種人機交互中的語音喚醒方法，其特征在于，所述語音喚醒方法包括以下步驟: 靜音檢測步驟，包括:在機器檢測到聲音能量時，進行喚醒詞檢出，如果聲音能量包括喚醒詞，則喚醒機器開始語音識別，否則啟動圖像檢測，轉入圖像檢測步驟；圖像檢測步驟，包括:在圖像檢測中，如果檢測到人，則喚醒機器開始語音識別，否則轉入靜音檢測步驟，繼續檢測聲音能量。2.根據權利要求1所述的語音喚醒方法，其特征在于，在所述圖像檢測步驟中，所述檢測到人是檢測到人的頭部。3.根據權利要求1所述的語音喚醒方法，其特征在于，在所述圖像檢測步驟中，所述檢測到人是檢測到人的臉部。4.根據權利要求3所述的語音喚醒方法，其特征在于，在所述圖像檢測步驟中，如果檢測到人的臉部是識別過的臉部，則還主動發出語音識別狀態就緒的語音提示。5.根據權利要求4所述的語音喚醒方法，其特征在于，如果檢測到人的臉部是識別過的臉部，則還以已存儲的昵稱或尊稱或戲墟稱呼主動發出語音提示。6.根據權利要求1所述的語音喚醒方法，其特征在于，在所述靜音檢測步驟中，如果聲音能量不包括喚醒詞，則利用聲源定位信息輔助調整攝像頭的拍攝角度，進行圖像檢測。7.根據權利要求1所述的語音喚醒方法，其特征在于，在喚醒機器開始語音識別后，在設定閾值的時間內，機器持續進行語音識別。8.根據權利要求1-7中任一項所述的語音喚醒方法，其特征在于，所述方法還包括通過對上述語音喚醒過程中語音識別、語義理解、圖像檢測和識別等多種方式的輸入和輸出結果的分析，建立學習模型，判斷是否進入喚醒后狀態的人機對話模式。9.一種人機交互中的語音識別裝置，其特征在于，所述語音識別裝置包括: 靜音檢測部件，用于檢測聲音能量，如果檢測到聲音，則啟動喚醒詞識別部件；喚醒詞識別部件，用于進行喚醒詞檢出，如果檢測到喚醒詞，則啟動語音喚醒部件，否貝IJ，啟動圖像檢測部件；圖像檢測部件，用于圖像檢測，如果檢測到人，則啟動語音喚醒部件，否則指示靜音檢測部件繼續檢測聲音；語音喚醒部件，用于喚醒機器開始語音識別。10.根據權利要求9所述的語音識別裝置，其特征在于，所述圖像檢測部件檢測到人是檢測到人的頭部。11.根據權利要求9所述的語音識別裝置，其特征在于，所述圖像檢測部件檢測到人是檢測到人的臉部。12.根據權利要求11所述的語音識別裝置，其特征在于，所述圖像檢測部件如果檢測到人的臉部是識別過的臉部，則還主動發出語音識別狀態就緒的語音提示。13.根據權利要求12所述的語音識別裝置，其特征在于，所述圖像檢測部件如果檢測到人的臉部是識別過的臉部，則還以已存儲的昵稱或尊稱或戲墟稱呼主動發出語音提示。14.根據權利要求9所述的語音識別裝置，其特征在于，所述靜音檢測部件還用于如果檢測到的聲音能量不包括喚醒詞，則利用聲源定位信息輔助調整攝像頭的拍攝角度，進行圖像檢測。15.根據權利要求9所述的語音識別裝置，其特征在于，所述語音識別裝置在被喚醒開始語音識別后，在設定閾值的時間內，能夠持續進行語音識別。16.根據權利要求9-15中任一項所述的語音識別裝置，其特征在于，所述語音識別裝置還用于通過對上述語音喚醒過程中語音識別、語義理解、圖像檢測和識別等多種方式的輸入和輸出結果的分析，建立學習模型，判斷是否進入喚醒后狀態的人機對話模式。
【文檔編號】G06F3/01GK105912092SQ201610210631
【公開日】2016年8月31日
【申請日】2016年4月6日
【發明人】陳本東, 牛建偉, 潘復平, 曹立新, 楊德剛
【申請人】北京地平線機器人技術研發有限公司

完(wan)整全部詳細技術資(zi)料下載

該技(ji)術(shu)已(yi)申請專利(li)。僅供(gong)學習(xi)研究，如用(yong)于商業用(yong)途，請聯系技(ji)術(shu)所有人(ren)。
技術研(yan)發(fa)人員：陳本東;牛建偉(wei);潘復平(ping);曹立新;楊德剛;
技(ji)術(shu)所(suo)有人：北京地平線(xian)機器人技(ji)術(shu)研發有限公(gong)司;
我是此專利的發明人