人機交互中的結束語音對話的方法及語音識別裝置的制造方法

文(wen)檔序號：10552479閱讀：799來源：國知局

人機交互中的結束語音對話的方法及語音識別裝置的制造方法
【專利摘要】本申請公開了一種人機交互中結束語音對話的方法和語音識別裝置。所述方法包括步驟：在開啟語音對話后檢測聲音能量，如果檢測不到預設定閾值的聲音能量，則開啟圖像檢測；如果圖像檢測不到人，則關閉圖像檢測并關閉語音對話。根據本發明的實施例，將圖像檢測的信息和靜音檢測相結合，來判斷是否結束語音對話狀態，可以在用戶離開的場景，更快的結束對話，降低功耗。
【專利說明】
人機交互中的結束語音對話的方法及語音識別裝置
技術領域
[0001]本公開一般涉及人機交互技術領域，具體涉及人機交互中的結束語音對話的方法及語音識別裝置。
【背景技術】
[0002]當前，越來越多的電子產品支持語音對話的交互方式，這些電子產品包括手機、平板電腦、其它手持智能設備等。同時，為了節省產品的電力消耗和提高續航時間，往往設置在對話開始前喚醒機器進行語音對話，并在結束語音對話后進入待機或休眠模式，使更多的硬件電路停止工作，消耗功率更低。機器如何正確地判斷與用戶的語音對話結束以維持低電力消耗也就成為一項重要的技術。
[0003]業界已經開發多種使機器判斷語音對話結束的方法。例如，蘋果公司的siri語音助手提供兩種結束語音對話的方式:一種是siri給出用戶提問問題的答案，一問一答結束。例如，用戶對siri說“北京天氣”，siri會向用戶說出一個答案，本輪對話結束;如果要再和siri說話，必須再次喚醒siri。另一種是進行多輪對話，由對話內容決定多輪對話的結束。例如，用戶對siri說“我想打電話”，siri會提醒你說出姓名。
[0004]上述方法中，人機交互非常不自然，用戶可能一直在對話，中間有不同的主題，通過內容判斷是否對話結束，非常不可靠。而且，有時命中多輪對話，有時沒有，用戶完全無法預期，用戶體驗較差。
[0005]—種改進的方式是設置一個超時機制，這樣的一個例子是一次對話后，在一定時間，例如15秒內，機器保持對話狀態，15秒后，機器停止語音識別，及對話停止。
[0006]對于設置超時機制的方法，雖然一定程度減輕了對話提早結束的問題，但是，設置多長時間超時合適沒有邏輯依據，僅是大致的判斷。這種超時機制有可能浪費功耗，例如，有可能用戶已經離開了機器，但是機器仍然要等待超時時間。
[0007]另一種結束語音對話的途徑是設置一個命令詞，如“拜拜”，但這需要正確識別語境和命令詞，另一種方法是設置一個按鈕，告訴機器對話已經結束，停止語音識別。這種方法比較死板，需要用戶機械的操作。

【發明內容】

[0008]鑒于現有技術中的上述缺陷或不足，期望提供一種自然的、并且能夠維持機器在非交互方式下低功耗的結束人機語音交互的方式。
[0009]在一個方面，本申請提供一種人機交互中結束語音對話的方法，所述方法包括步驟:
[0010]A、在開啟語音對話后檢測聲音能量，如果檢測不到預設定閾值的聲音能量，則開啟圖像檢測；
[0011]B、如果圖像檢測不到人，則關閉圖像檢測并關閉語音對話。
[0012]可選地，所述方法進一步包括:在步驟B中，如果圖像檢測到人，則繼續保持語音對話。
[0013]可選地，所述方法進一步包括:在步驟B中，如果圖像檢測到人，則在預設定時間內再次檢測聲音能量，并且如果在預設定時間內再次檢測聲音能量檢測不到預設定閾值的聲音能量，則關閉圖像檢測并關閉語音對話。
[0014]可選地，所述方法進一步包括:在步驟B中，所述圖像檢測到人包括檢測到人的頭部。
[0015]可選地，所述方法進一步包括:在步驟B中，如果圖像檢測到人，且在預設定時間內未檢測到聲音能量，還主動發出提醒用戶對話的語音提示。
[0016]可選地，所述方法進一步包括:在步驟B中，圖像檢測到人包括檢測到人的正臉、側臉或背臉，并且，圖像檢測到人的正臉、側臉或背臉時主動發出不同的語音提示。
[0017]可選地，所述方法進一步包括:在步驟B中，圖像檢測到人的正臉后再次檢測聲音能量的預設定時間比圖像檢測到人的側臉后再次檢測聲音能量的預設定時間更長。
[0018]可選地，所述方法進一步包括:結合語音識別、語義理解、圖像識別多種輸入方式，建立學習模型，判斷是否結束對話。
[0019]在另一方面，本申請還提供一種人機交互中語音識別裝置，所述語音識別裝置包括:
[0020]語音對話裝置，其用于采集外部聲音能量和發出語音消息；
[0021]靜音檢測裝置，其用于在開啟語音對話裝置后檢測聲音能量，如果檢測不到預設定閾值的聲音能量，則開啟圖像檢測裝置；
[0022]圖像檢測裝置，其用于檢測人；
[0023]對話結束裝置，其用于如果圖像檢測裝置檢測不到人，則關閉圖像檢測裝置并關閉語音對話裝置。
[0024]可選地，所述對話結束裝置進一步用于:如果圖像檢測裝置檢測到人，則保持語音對話裝置繼續工作。
[0025]可選地，所述對話結束裝置進一步用于:如果圖像檢測裝置檢測到人，則靜音檢測裝置在預設定時間內再次檢測聲音能量，并且如果在預設定時間內再次檢測聲音能量檢測不到預設定閾值的聲音能量，則關閉圖像檢測裝置并關閉語音對話裝置。
[0026]可選地，所述語音對話裝置進一步用于:如果所述圖像檢測裝置檢測到人，且靜音檢測裝置在預設定時間內未檢測到聲音能量，則所述語音對話裝置主動發出提醒用戶對話的語音提示。
[0027]可選地，所述圖像檢測裝置檢測到人包括檢測到人的正臉、側臉或背臉，并且，圖像檢測到人的正臉、側臉或背臉時主動發出不同的語音提示。
[0028]可選地，所述語音識別裝置進一步用于:圖像檢測裝置檢測到人的正臉后再次檢測聲音能量的預設定時間比圖像檢測裝置檢測到人的側臉后再次檢測聲音能量的預設定時間更長。
[0029]本發明通過將圖像檢測的信息和靜音檢測相結合，來判斷是否結束語音對話狀態，可以在用戶離開的場景，更快的結束對話，降低功耗。
【附圖說明】
[0030]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述，本申請的其它特征、目的和優點將會變得更明顯:
[0031]圖1示出根據本發明的一個實施例的結束語音對話的方法的流程圖；
[0032]圖2示出根據本發明的一個實施例的語音識別裝置的方框圖。
【具體實施方式】
[0033]下面結合附圖和實施例對本申請作進一步的詳細說明。可以理解的是，此處所描述的具體實施例僅僅用于解釋相關發明，而非對該發明的限定。另外還需要說明的是，為了便于描述，附圖中僅示出了與發明相關的部分。
[0034]需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本申請。
[0035]先參考圖1，其是根據本發明的一個實施例的結束語音對話的方法的流程圖。在該實施例中，一種具有人機語音交互功能的電子設備，例如手機或平板電腦，其包括語音識別裝置和圖像檢測裝置，圖像檢測裝置包括各種攝像頭，并且該設備具有多種操作狀態。就語音對話功能而言，其在關閉語音對話功能的操作下功耗最低。因此，在不進行語音對話的情況下，語音對話處于關閉狀態以維持機器最小的電力消耗。
[0036]當用戶要進行語音對話后，通過特定方式開啟該機器的語音輸入。例如，在機器的系統設置中打開語音對話的功能，或者通過機器上某個按鍵或按鈕打開語音對話功能。開始語音對話后，機器即開始采集用戶的語音輸入，并能夠根據系統功能向用戶發出交互的語音消息。這種交互，有的是給機器的操作命令，有的是向機器提出問題，要機器作答。
[0037]當用戶通過語音交互實現相關操作，或者獲知其需要的問題答案，再或者簡單地，用戶不想繼續語音交互而轉向其它事務時，機器能夠智能地識別語音對話結束，自動地退出語音對話。其識別步驟包括:
[0038]在步驟100，在開啟語音對話后檢測聲音能量，如果檢測不到預設定閾值的聲音能量，則開啟圖像檢測；
[0039]在步驟200，如果圖像檢測不到人，則關閉圖像檢測并關閉語音對話。
[0040]這里的聲音能量是對靜音狀態的檢測。在對話過程中，機器如果檢測到用戶語音停頓，聲音能量未能達到預設定的閾值，則開啟圖像檢測裝置，通過結合圖像信息進一步確認是否結束對話。對于聲音能量的該預設定的閾值，可以根據人正常對話時語音較低或適中的水平來確定。
[0041]如果在步驟200中圖像檢測不到人，則可以判斷用戶不在機器前，就關閉圖像檢測并關閉語音對話，以此來保持機器的低功率消耗，維持長的續航能力。
[0042]這里圖像檢測到人，包括檢測到人的輪廓，頭部、軀干、四肢等的影像。
[0043]進一步地，如果在步驟200中圖像檢測到人，可以判斷用戶仍在機器跟前，通常仍有進一步對話的意圖，則繼續保持語音對話狀態，等待用戶的語音輸入，這可以減少機器不必要的結束對話和再次喚醒，縮短客戶等待語音輸入處理的時間，使交流更自然。
[0044]進一步地，如果在步驟200中圖像檢測到人，則在預設定時間內再次檢測聲音能量，并且如果在預設定時間內再次檢測聲音能量檢測不到預設定閾值的聲音能量，則關閉圖像檢測并關閉語音對話。這有助于降低用戶在機器前進行長時間思考或進行語音對話以外的其他行為，例如，電子閱讀，在線瀏覽等期間由于語音識別裝置的工作帶來的不必要的電力消耗。該預設定時間可以依據統計的或經驗的時間間隔設置。
[0045]進一步地，如果在步驟200中圖像檢測到人，且靜音檢測裝置在預設定時間內未能檢測到聲音能量，則還主動發出提醒用戶進行對話的語音提示。例如，“你好，你在發呆嗎?”。用戶在聽到該語音提示后，可以繼續進行語音交互或者手動地關閉語音交互，從而保持機器的低電力消耗。可選地，可以在機器的人機界面上同時彈出提醒關閉語音交互的顯示消息提示，請客戶確認。
[0046]可選地，在步驟200中，圖像檢測到人包括檢測到人的正臉、側臉或背臉，并且，圖像檢測到人的正臉、側臉或背臉時主動發出不同的語音提示。
[0047]進一步地，在步驟200中，圖像檢測到人的正臉后再次檢測聲音能量的預設定時間比圖像檢測到人的側臉后再次檢測聲音能量的預設定時間更長。例如，在圖像檢測到用戶的正臉后，機器在20秒內繼續進行靜音檢測，而在圖像檢測到用戶的側臉后，機器在15秒內繼續進行靜音檢測。即機器在圖像檢測到用戶的正臉比檢測到用戶的側臉后更有“耐心”，這與用戶正臉面對機器時繼續語音對話的可能性更高相一致。
[0048]另外，通過靜音檢測來觸發圖像檢測，可以設置只有在靜音較長時開啟圖像檢測，避免圖像檢測過多的功耗。
[0049]進一步地，可以結合判斷語音對話結束過程中的語音識別、語義理解、圖像識別多種輸入方式，建立學習模型，判斷是否結束對話。從而提高結束語音對話操作的準確性，提升用戶體驗。例如，機器發現上一次結束語音對話后，很短時間內，用戶再次喚醒機器人和機器人交互，機器人會學習到這種情況，以后在同樣的情況下，就會推遲結束對話的時間，自動逐步改善用戶體驗。
[0050]應當注意，盡管在附圖中以特定順序描述了本發明方法的操作，但是，這并非要求或者暗示必須按照該特定順序來執行這些操作，或是必須執行全部所示的操作才能實現期望的結果。相反，流程圖中描繪的步驟可以改變執行順序。附加地或備選地，可以省略某些步驟，將多個步驟合并為一個步驟執行，和/或將一個步驟分解為多個步驟執行。
[0051]圖2示出根據本發明的實施例提供的一種語音識別裝置I，包括:
[0052]語音對話裝置10，其用于采集外部聲音能量和發出語音消息；
[0053]靜音檢測裝置20，其用于在開啟語音對話裝置10后檢測聲音能量，如果檢測不到預設定閾值的聲音能量，則開啟圖像檢測裝置30;
[0054]圖像檢測裝置30，其用于檢測人；
[0055]對話結束裝置40，其用于如果圖像檢測裝置30檢測不到人，則關閉圖像檢測裝置30并關閉語音對話裝置10。
[0056]可選地，所述對話結束裝置40進一步用于:如果圖像檢測裝置30檢測到人，則保持語音對話裝置10繼續工作。
[0057]可選地，所述對話結束裝置40進一步用于:如果圖像檢測裝置30檢測到人，則靜音檢測裝置20在預設定時間內再次檢測聲音能量，并且如果在預設定時間內再次檢測聲音能量檢測不到預設定閾值的聲音能量，則關閉圖像檢測裝置30并關閉語音對話裝置10。
[0058]可選地，所述語音對話裝置10進一步用于:如果所述圖像檢測裝置30檢測到人，且靜音檢測裝置20在預設定時間內未檢測到聲音能量，則所述語音對話裝置10主動發出提醒用戶對話的語音提示。
[0059]可選地，所述圖像檢測裝置30檢測到人包括檢測到人的正臉、側臉或背臉，并且，圖像檢測到人的正臉、側臉或背臉時主動發出不同的語音提示。
[0060]可選地，所述語音識別裝置I進一步用于:圖像檢測裝置30檢測到人的正臉后再次檢測聲音能量的預設定時間比圖像檢測裝置30檢測到人的側臉后再次檢測聲音能量的預設定時間更長。
[0061]本發明通過將圖像檢測的信息和靜音檢測相結合，來判斷是否結束語音對話狀態，可以在用戶離開的場景，更快的結束對話，降低功耗。
[0062]應當注意，本發明的上述語音喚醒方法和語音識別裝置，可以用硬件或硬件與軟件相結合的方式來實現。其可以用通用硬件或專用電路來實現。
【主權項】
1.一種人機交互中結束語音對話的方法，其特征在于，所述方法包括步驟: A、在開啟語音對話后檢測聲音能量，如果檢測不到預設定閾值的聲音能量，則開啟圖像檢測； B、如果圖像檢測不到人，則關閉圖像檢測并關閉語音對話。2.根據權利要求1所述的方法，其特征在于，所述方法進一步包括:在步驟B中，如果圖像檢測到人，則繼續保持語音對話。3.根據權利要求1所述的方法，其特征在于，所述方法進一步包括:在步驟B中，如果圖像檢測到人，則在預設定時間內再次檢測聲音能量，并且如果在預設定時間內再次檢測聲音能量檢測不到預設定閾值的聲音能量，則關閉圖像檢測并關閉語音對話。4.根據權利要求2或3所述的方法，其特征在于，所述方法進一步包括:在步驟B中，所述圖像檢測到人包括檢測到人的頭部。5.根據權利要求2所述的方法，其特征在于，所述方法進一步包括:在步驟B中，如果圖像檢測到人，且在預設定時間內未檢測到聲音能量，還主動發出提醒用戶對話的語音提示。6.根據權利要求3所述的方法，其特征在于，所述方法進一步包括:在步驟B中，圖像檢測到人包括檢測到人的正臉、側臉或背臉，并且，圖像檢測到人的正臉、側臉或背臉時主動發出不同的語音提示。7.根據權利要求6所述的方法，其特征在于，所述方法進一步包括:在步驟B中，圖像檢測到人的正臉后再次檢測聲音能量的預設定時間比圖像檢測到人的側臉后再次檢測聲音能量的預設定時間更長。8.根據權利要求1所述的方法，其特征在于，所述方法進一步包括:結合語音識別、語義理解、圖像識別多種輸入方式，建立學習模型，判斷是否結束對話。9.一種人機交互中的語音識別裝置，其特征在于，所述語音識別裝置包括: 語音對話裝置，其用于采集外部聲音能量和發出語音消息；靜音檢測裝置，其用于在開啟語音對話裝置后檢測聲音能量，如果檢測不到預設定閾值的聲音能量，則開啟圖像檢測裝置；圖像檢測裝置，其用于檢測人；對話結束裝置，其用于如果圖像檢測裝置檢測不到人，則關閉圖像檢測裝置并關閉語音對話裝置。10.權利要求9所述的語音識別裝置，其特征在于，所述對話結束裝置進一步用于:如果圖像檢測裝置檢測到人，則保持語音對話裝置繼續工作。11.根據權利要求9所述的語音識別裝置，其特征在于，所述對話結束裝置進一步用于:如果圖像檢測裝置檢測到人，則靜音檢測裝置在預設定時間內再次檢測聲音能量，并且如果在預設定時間內再次檢測聲音能量檢測不到預設定閾值的聲音能量，則關閉圖像檢測裝置并關閉語音對話裝置。12.根據權利要求10所述的語音識別裝置，其特征在于，所述語音對話裝置進一步用于:如果所述圖像檢測裝置檢測到人，且靜音檢測裝置在預設定時間內未檢測到聲音能量，則所述語音對話裝置主動發出提醒用戶對話的語音提示。13.根據權利要求12所述的語音識別裝置，其特征在于，所述圖像檢測裝置檢測到人包括檢測到人的正臉、側臉或背臉，并且，圖像檢測到人的正臉、側臉或背臉時主動發出不同的語音提示。14.根據權利要求13所述的語音識別裝置，其特征在于，所述語音識別裝置進一步用于:圖像檢測裝置檢測到人的正臉后再次檢測聲音能量的預設定時間比圖像檢測裝置檢測到人的側臉后再次檢測聲音能量的預設定時間更長。
【文檔編號】G10L15/22GK105912111SQ201610210633
【公開日】2016年8月31日
【申請日】2016年4月6日
【發明人】陳本東, 牛建偉, 潘復平, 曹立新
【申請人】北京地平線機器人技術研發有限公司

完整全部(bu)詳細(xi)技術資料(liao)下載(zai)