,具有擬人的自主運動的意識,易于用戶操作,同時更加全面地體現擬人機器人的智能性,提升用戶的使用體驗,在宣傳、演示和服務領域具有非常親和有效的作用。
[0052]圖5是根據本發明一個實施例的基于人工智能的擬人機器人控制系統的結構框圖。如圖5所示,該控制系統500,包括:接收模塊510、人工智能模塊520、控制模塊530和反饋模塊540。
[0053]具體而言,接收模塊510用于接收用戶輸入的語音信號和/或圖像信號。用戶輸入的語音信號可以是用戶通過麥克風輸入的;上述的圖像信號可以是通過攝像頭采集得到的。
[0054]人工智能模塊520用于根據語音信號和/或圖像信號確定用戶的意圖。
[0055]例如:通過人工智能可以對語音信號和/或圖像信號進行分析處理,從而確定出用戶的意圖。需要說明的是,通過人工智能可以對語音信號和圖像信號中的任意一個進行分析處理確定出用戶的意圖,也可以是通過對兩者的結合確定出用戶的意圖。
[0056]具體地,如圖2所示,可以根據以下兩種方式確定用戶的意圖,具體包括:
[0057]1、對語音信號進行語音識別,并對識別結果進行自然語言理解、語義分析、情感分析中的一種或多種,以確定用戶的意圖。具體來說,對于語音信號的處理需要進行語音識另IJ、自然語言理解、語義分析、機器翻譯、情感分析等,通過上述的處理,擬人機器人在與用戶進行交互的過程中,當用戶說出一句話的時候,才能夠得知用戶輸入的語音的含義。
[0058]2、對語音信號進行語音識別,并對識別結果進行自然語言理解、語義分析、情感分析中的一種或多種,以及結合圖像信號確定用戶的意圖。具體來說,當擬人機器人得知用戶輸入的語音的含義,可以進一步結合用戶的圖像信號來更加明確用戶的意圖。例如:當用戶輸入的語音為“握手”,并通過用戶的圖像信號識別出用戶給出了伸出右手的動作,則此時可以明確用戶的意圖為與擬人機器人握手。
[0059]另外,通過兩者結合的方式不但可以更加明確用戶的意圖,還可以在其中一個沒有識別出來的情況下,通過另一個確定用戶的意圖。例如:當用戶的動作含糊不清或者沒有給出明確的動作時,可以通過識別出的語音“握手”來確定用戶的意圖。同樣,當語音信號不好,不能識別出語音信號時,則可以根據圖像信號中識別到的用戶的“用戶伸出右手的動作”確定用戶出用戶的意圖,即握手的意圖。
[0060]如圖3所示,還可以根據另外兩種方式確定用戶的意圖,具體包括:
[0061]3、對圖像信號進行圖像識別,確定圖像信號中的用戶,并根據圖像信號中多幀圖像之間的用戶的動作差異確定用戶的肢體動作,以及根據用戶的肢體動作確定用戶的意圖。具體來說,在很短的時間內(如2秒)采集用戶的視頻信號(即多個連續的圖像),然后根據多個連續的圖像信號中用戶的動作差異確定用戶的肢體動作,還以“用戶伸出右手的動作”為例,則確定出用戶的肢體動作為“用戶伸出右手的動作”,從而確定出用戶的意圖為“握手”。
[0062]4、對圖像信號進行圖像識別,確定圖像信號中的用戶,并根據圖像信號中多幀圖像之間的用戶的動作差異確定用戶的肢體動作,以及根據用戶的肢體動作和/或語音信號確定用戶的意圖。具體來說,當通過圖像信號確定出用戶的肢體動作為“用戶伸出右手的動作”之后,結合語音信號,識別出語音信號的含義為“握手”,則兩者結合可以更加明確用戶的意圖。
[0063]另外,通過兩者結合的方式不但可以更加明確用戶的意圖,還可以在其中一個沒有識別出來的情況下,通過另一個確定用戶的意圖。例如:當用戶的動作含糊不清或者沒有給出明確的動作時,可以通過識別出的語音“握手”來確定用戶的意圖。同樣,當語音信號不好,不能識別出語音信號時,則可以根據圖像信號中識別到的用戶的“用戶伸出右手的動作”確定用戶出用戶的意圖,即握手的意圖。
[0064]控制模塊530用于對用戶的意圖進行處理。
[0065]反饋模塊540用于將處理模塊的處理結果以多模態的輸出方式反饋給所述用戶,多模態的輸出方式包括擬人機器人的動作輸出方式、圖像或視頻輸出方式以及音頻輸出方式中的一種或多種。
[0066]在本發明的一個實施例中,將處理結果以多模態的輸出方式反饋給用戶包括:控制擬人機器人執行與用戶的意圖對應的動作;和/或;顯示與用戶的意圖相關的表情;和/或進行與用戶的意圖相關的圖像演示或視頻演示;和/或播放與用戶的意圖相關的音頻。
[0067]例如:當擬人機器人確定出用戶的意圖為“握手”,則可以智能地控制擬人機器人執行伸出它的右手的動作、顯示與“握手”等友好的場景對應的“笑臉圖像”、播放與“握手”等友好場面對應的音樂等的一種,或者上述多種反饋方式中的多種的組合,如伸出右手的動作的同時顯示“笑臉圖像”以表示友好。從而提升擬人機器人的人機交互體驗。
[0068]如圖4所示,在本發明的一個實施例中,人工智能模塊520在根據語音信號和/或圖像信號確定用戶的意圖之前,還用于:
[0069]S401:檢測用戶是否呼叫擬人機器人。例如:預先給擬人機器人設定一個名字,如“小白”,則當用戶呼叫“小白”時,擬人機器人通過人工智能的方式對用戶呼叫的“小白”進行語音識別,從而使擬人機器人理解其含義,便知道是否為呼叫自己。
[0070]S402:如果是,則激活擬人機器人,并根據用戶的呼叫進行聲源定位以確定用戶的位置,以及控制擬人機器人移動至用戶的面前。
[0071]具體而言,如果擬人機器人確定用戶實在呼叫自己,則進行激活,例如通過電池等為擬人機器人的各個功能模塊進行上電,使擬人機器人處于激活狀態。在本發明的一個實施例中,為了提升人機交互體驗,當擬人機器人確定用戶在呼叫它的時候,可以顯示擬人機器人的激活表情,激活表情可以被預先定義,只要是能夠直觀地反映出機器人被激活便可。從而,進一步提升人機交互體驗。
[0072]另外,根據用戶的呼叫進行聲源定位以確定用戶的位置。可通過ManyEars聲源定位技術來檢測擬人機器人周圍的聲音,具體地,可根據麥克風陣列來采集聲源信號,之后可對聲源信號進行有效音頻信號檢測,并且還可通過ManyEars技術將檢測到的多個聲源進行分離以得到多個獨立的聲源。其中,本實施例的術語“至少一個”可理解為一個或多個。進一步地,可通過ManyEars技術中的聲源定位運算對上述某個聲源進行定位,從而確定出用戶的位置。
[0073]當確定出用戶的位置之后,便可以自動控制擬人機器人運動到用戶的面前。進一步地,控制模塊530還用于檢測擬人機器人是否移動到用戶的面前;如果否,則進一步控制擬人機器人進行移動直至達到用戶的面前。從而對擬人機器人的運動控制形成閉環,保證擬人機器人的運動更加精確可靠。
[0074]在本發明的一個實施例中,控制模塊530還用于在控制擬人機器人移動至用戶的面前時,將擬人機器人的攝像頭轉向面對用戶的方向,以對用戶進行拍照,并根據用戶的圖像信號進行人臉識別,以確定用戶的身份信息。這樣,一方面可以防止非法用戶使用擬人機器人,另一方面,也可根據用戶的身份信息使擬人機器人為用戶提供個性化的服務,提升擬人機器人的使用體驗。例如:電腦可以為不同的用戶建立多個賬戶,每個用戶可以通過自己的賬戶進入系統,可以在自己的賬戶下進行個性化設置,擬人機器人為用戶提供個性化的服務也是類似的,擬人機器人通過確定用戶的身份之后,便可以根據用戶的身份為不同的用戶提供個性化服務。
[0075]作為一個具體的例子,假設當擬人機器人通過人工智能判斷出用戶呼叫,擬人機器人通過麥克風陣列采集到用戶的位置,然后智能地移動到用戶面前,并將擬人機器人頭部擺動對準用戶,通過攝像頭進行拍照后進行人臉識別確定用戶身份,從而為用戶提供理想的交互手段或者為用戶提供個性化的服務。這時當用戶伸出手時,機器人采集到這一動作對應的圖像信號,然后利用人工智能經過對用戶行為進行針對性分析后確定是握手的動作,便會主動伸出手臂到合適的位置、顯示與“握手”等友好的場景對應的“笑臉圖像”和播放與“握手”等友好場面對應的音樂等的一種,或者上述多種反饋方式中的多種的組合,如伸出右手的動作的同時顯示“笑臉圖像”以表示友好。從而提升擬人機器人的人機交互體驗。
[0076]以下結合具體的例子對本發明實施例的系統進行更為詳細的描述。例如:在一個室內環境,擬人機器人的使用者呼喚其名字,擬人機器人通過布置在身體上的麥克風陣列捕捉到這一聲音,并通過定位算法定位到使用者的位置。擬人機器人在捕捉到呼叫聲音后自動激活,給擬人機器人的各組成部分供電,在擬人機器人的頭部的顯示屏上顯示激活后的表情(即激活表情),然后通過擬人機器人的底盤的輪子以雙輪差速運動的方式使擬人機器人移動到使用者的面前,將頭部轉動到面向使用者的方向,頭部的攝像頭會對使用者進行拍照并身份識別,再通過已有的數據庫檢索出與使用者交互的最恰當的方式或者為其提供個性化服務。在通過麥克