一種用于機器人的語音和圖像復合交互執行方法及系統的制作方法
【專利摘要】本發明涉及一種用于機器人的語音和圖像復合交互執行方法及系統,所述方法包括:步驟一:機器人探測周圍的聲音,并對聲源進行定位;步驟二:機器人探測周圍的人臉,對人臉進行定位,并將人臉的定位與聲源的定位進行比較和匹配,過濾掉干擾聲源,初步確定語音聲源,初步確定語音命令;步驟三:機器人檢測周圍人體目標,并對人體目標進行跟蹤,識別肢體命令,并與初步確定的語音命令進行比較和匹配,過濾干擾語音命令,確定有效的用戶命令,步驟四:機器人根據用戶命令執行相應的操作。使機器人在復雜背景下更加準確地理解用戶命令,仍可精確識別出向機器人發出的用戶命令,魯棒性更強,更智能、更有效地同人類用戶進行交互。
【專利說明】
一種用于機器人的語音和圖像復合交互執行方法及系統
技術領域
[0001]本發明涉及機器人領域,特別涉及一種用于機器人的語音和圖像復合交互執行方法及系統。【背景技術】
[0002]為實現機器人和人類用戶交互,現有技術有的通過語音識別用戶命令的技術,由于所處的真實環境較為復雜,同時存在其他用戶的語音干擾和環境中的非語音干擾(如電視、音箱的聲源等),多個用戶都發出語音信號,只是有的向機器人發出語音命令,有的則在做交談等與機器人無關的行為.所以聲定位結果可能既包含發出語音命令的用戶,又包含干擾聲源。從包含干擾聲源的復雜環境中準確定位用戶聲源是語音命令識別的一個難點, 給語音命令識別增加了困難,基于人體運動分析來識別用戶命令技術也有不足。運動目標檢測是人體運動分析的基礎步驟,但目前仍沒有快速魯棒的運動目標檢測方法。一個主要原因是由于動態環境中采集的圖像序列很容易受到各種干擾,這些干擾包括光照變化、背景干擾、目標影子干擾、目標被遮擋、攝像機運動、目標與環境顏色類似等。目前處理遮擋等干擾問題的算法往往也存在計算復雜度高,運算量較大的問題。
【發明內容】
[0003]本發明的目的在于提供一種用于機器人的語音和圖像復合交互執行方法及系統, 提高對用戶命令識別的精度和魯棒性。
[0004]本發明提供了一種用于機器人的語音和圖像復合交互執行方法,包括:
[0005]步驟一:機器人探測周圍的聲音,并對聲源進行定位;
[0006]步驟二:機器人探測周圍的人臉,對人臉進行定位,并將人臉的定位與聲源的定位進行比較和匹配,過濾掉干擾聲源,初步確定語音聲源,初步確定語音命令;
[0007]步驟三:機器人檢測周圍人體目標,并對人體目標進行跟蹤,識別肢體命令,并與初步確定的語音命令進行比較和匹配,過濾干擾語音命令,確定有效的用戶命令,
[0008]步驟四:機器人根據用戶命令執行相應的操作.
[0009]步驟二中,對聲源的周圍進行人臉識別,若聲源的位置周圍檢測到人臉信號,則該聲源為語音聲源,機器人對該語音聲源分析識別語音命令;若聲源的位置周圍未檢測到人臉信號,則該聲源為干擾聲源,將該聲源過濾。
[0010]步驟二中,對機器人周圍的所有人臉進行識別,若聲源的位置與人臉的位置有重合,則該聲源為語音聲源,機器人對該語音聲源分析識別語音命令;若聲源的位置與人臉的位置沒有重合,則該聲源為干擾聲源,將該聲源過濾.[〇〇11]步驟三中,若語音聲源處檢測到的肢體命令與該語音聲源確定的語音命令一致, 則該語音聲源的命令為有效的用戶命令,若有效聲源處檢測到的肢體命令與該有效聲源確定的語音命令不一致,則為干擾語音命令,將該命令過濾。
[0012]機器人采用基于視覺的人體運動分析來進行運動目標檢測、運動目標分類、人體運動跟蹤以及行為識別與描述。
[0013]步驟三中,利用攝像頭提取人體目標,并對人體目標進行跟蹤,然后提取人體骨架,確定人體的主干和肢體,分析人體的肢體動作,識別肢體命令。
[0014]—種具有上述方法的系統,所述系統包括:
[0015]聲音探測識別單元,進行聲音探測,對聲源進行定位;
[0016]圖像探測識別單元,探測機器人視場的圖像信息,在圖像中進行人臉檢測識別,并識別和跟蹤人體目標,對人體的肢體動作進行分析,識別出肢體命令;
[0017]控制單元,比較聲源和人臉的位置識別語音聲源,比較語音聲源的語音命令和肢體命令確定用戶命令;
[0018]執行單元,執行用戶命令。
[0019]所述圖像探測識別單元包括人臉識別單元和肢體命令識別單元。所述人臉識別單元和聲音探測識別單元組成用戶命令識別單元.
[0020]本發明將不同識別技術進行復合,發揮各自優點,彌補各自的不足,提高對用戶命令識別的精度和魯棒性,將語音識別技術和人臉檢測識別技術復合實現用戶語音命令識另IJ,進一步復合肢體命令的識別提高機器人對用戶命令的準確識別,在更準確識別用戶命令的基礎上,采用機器人機電動作執行系統完成機器人相應的動作,更好地完成用戶交與的任務。可使機器人在復雜背景下更加準確地理解用戶命令,克服了語音識別和圖像識別各自的不足。當同時存在多個人類用戶的復雜環境下,該系統仍可精確識別出向機器人發出的用戶命令,魯棒性更強,更智能、更有效地同人類用戶進行交互。【附圖說明】[0021 ]圖1是語音命令識別流程 [〇〇22]圖2是肢體命令識別流程 [〇〇23]圖3是語音命令和肢體命令結合的控制流程【具體實施方式】
[0024]將結合附圖描述根據本發明的恒壓漲緊裝置和履帶式機器人的【具體實施方式】。下面的詳細描述和附圖用于示例性地說明本發明的原理,本發明不限于所描述的優選實施例,本發明的范圍由權利要求書限定。[〇〇25]如圖1-3所示,本發明所述一種用于機器人的語音和圖像復合交互執行方法,包括如下步驟:
[0026]步驟一:機器人探測周圍的聲音,并對聲源進行定位;即檢測機器人周圍的所有聲音;
[0027]步驟二:機器人探測周圍的人臉,對人臉進行定位,并將人臉的定位與聲源的定位進行比較和匹配,過濾掉干擾聲源,初步確定語音聲源,初步確定語音命令;可以過濾掉環境中的那些沒有檢測到人臉的、非人類用戶干擾聲源(如電視、音箱的聲源等);
[0028]步驟三:機器人檢測周圍人體目標,并對人體目標進行跟蹤,識別肢體命令,并與初步確定的語音命令進行比較和匹配,過濾干擾語音命令,確定有效的用戶命令,可以過濾掉環境中的檢測到人臉但是不是向機器人發出命令的人類用戶干擾聲源;
[0029]步驟四:機器人根據用戶命令執行相應的操作.完成機器人所需的相應動作,如頭部的抬頭、低頭和轉動動作,如手臂的抬起、放下動作,如機器人身體前進、后退和轉動動作等。
[0030]即將人臉檢測識別結果和聲音定位結果進行復合,消除那些沒有檢測到人臉的非人類用戶的干擾聲源.由于存在人類用戶干擾聲源,雖然在聲探測中見到聲源存在,且聲源位置還處于某個人臉區域,但該用戶沒有向機器人發出需要執行的命令,也是需要剔除的干擾聲源.對于人類用戶干擾聲源,常用的方法是識別所有用戶聲源的語音信號逐一辨別。 如果用戶聲源語音識別結果是命令,則是需要交互的用戶聲源;如果語音識別結果不是命令,則為人類用戶干擾聲源,予以剔除。本發明復合了基于視覺的人體運動分析命令識別系統,所以在識別所有用戶語音信號時,還復合人體肢體命令識別結果對用戶干擾聲源進行篩除。當所識別的用戶聲源識別結果是命令,同時該人臉所在的人體檢測到對應語音命令的肢體命令,則語音命令和肢體命令形成了匹配對應關系,則此時可斷定該用戶聲源所發命令是用戶命令,需要執行。反之,如果語音命令識別結果和肢體命令識別結果不能匹配對應,則認為該用戶聲源是干擾聲源,予以剔除。
[0031]步驟二中,對機器人周圍的所有人臉進行識別,若聲源的位置與人臉的位置有重合,則該聲源為語音聲源,機器人對該語音聲源分析識別語音命令;若聲源的位置與人臉的位置沒有重合,則該聲源為干擾聲源,將該聲源過濾.[〇〇32]或者步驟二中,只對聲源的周圍進行人臉識別,若聲源的位置周圍檢測到人臉信號,則該聲源為語音聲源,機器人對該語音聲源分析識別語音命令;若聲源的位置周圍未檢測到人臉信號,則該聲源為干擾聲源,將該聲源過濾。
[0033]步驟三中,若語音聲源處檢測到的肢體命令與該語音聲源確定的語音命令一致, 則該語音聲源的命令為有效的用戶命令,若有效聲源處檢測到的肢體命令與該有效聲源確定的語音命令不一致,則為干擾語音命令,將該命令過濾。
[0034]機器人采用基于視覺的人體運動分析來進行運動目標檢測、運動目標分類、人體運動跟蹤以及行為識別與描述。利用攝像頭優選紅外攝像頭提取人體目標,并對人體目標進行跟蹤,然后提取人體骨架,確定人體的主干和肢體,分析人體的肢體動作,識別肢體命令。
[0035]圖像探測識別單元主要由攝像頭、識別分析處理軟件等組成。圖像探測識別單元主要功能是探測機器人前方視場的圖像信息,在圖像中進行人臉檢測識別,并識別和跟蹤人體目標,對人體的肢體動作進行分析,識別出肢體命令。
[0036]在圖像探測識別系統識別肢體命令的過程中,首先利用紅外攝像頭提取人體目標,并對人體目標進行跟蹤。然后提取人體骨架,確定人體的主干和肢體。在對人體進行跟蹤的同時,分析人體的肢體動作,識別肢體命令。當語音探測識別系統識別到語音命令時, 將同時間該人體識別的肢體命令和對應人體用戶的語音識別命令結果進行比較,看所識別的肢體命令是否和語音識別命令相對應。如果二者相對應,則采用肢體命令識別印證了語音命令識別,說明當前的人體用戶確實發出了所識別的語音命令。反之,如果二者不相對應,則不能采用肢體命令識別印證了語音命令識別,說明當前的人體用戶沒有發出了所識別的語音命令,當前的人體用戶是干擾用戶語音聲源。
[0037]本發明將語音識別技術和人體行為分析技術進行復合,提供一個采用語音命令識別和圖像肢體命令識別的復合人機交互執行系統,該系統在復雜環境下識別用戶命令的精度更高,魯棒性更強,能更有效地同用戶進行交互,完成用戶交與的任務。
[0038]本發明采用聲音探測識別單元檢測多個聲源,采用人臉識別系統對檢測到的多聲源進行篩選,將可能的非用戶干擾聲源進行去除。再采用圖像探測識別系統,探測和跟蹤人體目標,對人體運動進行分析,識別所跟蹤人體的肢體命令。將對用戶肢體命令的識別結果和采用人臉識別修正后的語音命令識別結果進行復合,進一步剔除干擾用戶聲源,準確確定發出命令的用戶聲源,并對用戶所發命令采用機器人機電動作執行系統予以完成,實現有效的人機交互。
[0039]本發明所述一種具有上述方法的系統,所述系統包括:
[0040]聲音探測識別單元,進行聲音探測,對聲源進行定位;
[0041]圖像探測識別單元,探測機器人視場的圖像信息,在圖像中進行人臉檢測識別,并識別和跟蹤人體目標,對人體的肢體動作進行分析,識別出肢體命令;所述圖像探測識別單元包括人臉識別單元和肢體命令識別單元,
[0042]控制單元,比較聲源和人臉的位置識別語音聲源,比較語音聲源的語音命令和肢體命令確定用戶命令;[〇〇43]執行單元,執行用戶命令。
[0044]或者本發明所述一種具有上述方法的系統,所述系統包括:語音命令識別單元和肢體命令識別單元,所述語音命令識別單元包括聲音探測識別單元和人臉識別單元,其功能是在復雜背景中,識別語音信號中的命令,所述肢體命令識別單元和人臉識別單元是通過圖像探測識別單元實現的。
[0045]如圖1所示,本發明通過復合了人臉檢測識別和聲音識別來在復雜環境中識別語音命令。在語音識別過程中,聲音探測識別單元進行聲音探測,對聲源進行定位,在真實的復雜環境中同時存在其他用戶的語音干擾和非語音干擾(如電視、音箱的聲源等),所以聲音定位結果既包含發出語音命令的用戶聲源,又包含干擾聲源。在聲音定位的同時,圖像探測識別單元的人臉識別單元對機器人前方進行圖像探測,從圖像中檢測識別人臉目標,由于人類用戶發命令的聲源是口的位置,口的位置和人臉區域重合,所以人類用戶聲源所在區域往往和某個檢測到的人臉區域重合,根據這個條件對人類用戶的語音聲源和非語音干擾聲源進行鑒別。如果所探測到的聲源區域和某個檢測到的人臉區域重合,則說明該聲源是人類用戶語音聲源.如果所探測到的聲源區域不和某個檢測到的人臉區域重合,則說明該聲源是非用戶干擾聲源,需要剔除。在篩選出語音聲源后,還需確定那個用戶語音聲源給機器人發出了命令。所以要對每個語音聲源進行語音識別,對每個語音聲源進行理解,并將語音識別結果和肢體命令識別結果進行復合。當同時存在多個人類用戶的復雜環境下,該系統仍可精確識別出向機器人發出的用戶命令,魯棒性更強,更智能、更有效地同人類用戶進行交互。
[0046]如圖2所示,本發明的圖像探測識別單元中的肢體命令識別單元對人體的運動進行分析,理解人體目標的肢體動作,識別出用戶所發出的肢體命令。在肢體命令識別過程中,先用紅外攝像頭檢測人體目標,并對人體目標進行跟蹤。再對檢測到的人體目標提取人體骨架,確定人體的主干和肢體。在對人體進行跟蹤的同時,分析理解人體的肢體動作,識別肢體的命令。例如用戶向機器人發出“向前走”的語音命令時,用戶會向機器人做招手的肢體動作。機器人通過語音識別用戶所發的“向前走”的語音命令,通過人體運動分析識別出用戶人體的手部做出了招手的肢體命令。將兩個識別結果進行復合,當語音命令和肢體命令對應上了,則準確識別了用戶的命令。
[0047]如圖3所示,本發明將語音命令識別和圖像理解的肢體命令識別進行復合,以更好地進行人機交互。采用聲音探測識別檢測多個聲源,采用人臉檢測識別對檢測到的多聲源進行篩選,將非語音干擾聲源進行去除,得到多個人類語音聲源需進一步篩選,以找到發出語音命令的用戶聲源。采用圖像探測識別單元探測和跟蹤多個人體目標。對每個人體目標進行運動分析,識別所跟蹤每個人體目標的肢體動作。由于語音聲源也來自人體,所以每個檢測到的用戶語音聲源都會和某個檢測到的人體相對應。將相對應聲源的語音命令識別結果和對應人體的肢體命令識別結果進行復合比較,如果語音識別到的命令和肢體動作識別到的命令是一致的,例如用戶語音發出“向前走”的命令,對該用戶身體的肢體命令識別中也出現招手的肢體命令,則語音命令識別結果和肢體命令識別結果匹配對應上了,這時就可斷定該人類用戶向機器人發出了相應的語音命令,機器人將調用機電動作執行系統完成用戶命令規定的內容。如果相對應聲源的語音識別結果和對應人體的肢體識別結果進行復合比較后,或者是語音信號中沒有識別出語音命令,或者是肢體識別中沒有識別出肢體命令,或者語音識別的命令和肢體動作識別到的命令不匹配對應,以上三種情況出現一種都說明該用戶語音聲源沒有向機器人發出需要執行的命令,則該語音聲源是人類用戶干擾聲源,將被剔除。至此,在采用語音命令識別和肢體命令識別復合后,在復雜環境中機器人可更準確地識別用戶命令,使人機交互的魯棒性得以提高.[〇〇48]如前所述,盡管說明中已經參考附圖對本發明的示例性實施例進行了說明,但是本發明不限于上述各【具體實施方式】,還可以有許多其他實施例方式,本發明的范圍應當由權利要求書及其等同含義來限定。
【主權項】
1.一種用于機器人的語音和圖像復合交互執行方法,其特征在于,包括:步驟一:機器人探測周圍的聲音,并對聲源進行定位;步驟二:機器人探測周圍的人臉,對人臉進行定位,并將人臉的定位與聲源的定位進行 比較和匹配,過濾掉干擾聲源,初步確定語音聲源,初步確定語音命令;步驟三:機器人檢測周圍人體目標,并對人體目標進行跟蹤,識別肢體命令,并與初步 確定的語音命令進行比較和匹配,過濾干擾語音命令,確定有效的用戶命令,步驟四:機器人根據用戶命令執行相應的操作。2.根據權利要求1所述的一種用于機器人的語音和圖像復合交互執行方法,其特征在 于:步驟二中,對聲源的周圍進行人臉識別,若聲源的位置周圍檢測到人臉信號,則該聲源 為語音聲源,機器人對該語音聲源分析識別語音命令;若聲源的位置周圍未檢測到人臉信 號,則該聲源為干擾聲源,將該聲源過濾。3.根據權利要求1所述的一種用于機器人的語音和圖像復合交互執行方法,其特征在 于:步驟二中,對機器人周圍的所有人臉進行識別,若聲源的位置與人臉的位置有重合,則 該聲源為語音聲源,機器人對該語音聲源分析識別語音命令;若聲源的位置與人臉的位置 沒有重合,則該聲源為干擾聲源,將該聲源過濾。4.根據權利要求1所述的一種用于機器人的語音和圖像復合交互執行方法,其特征在 于:步驟三中,若語音聲源處檢測到的肢體命令與該語音聲源確定的語音命令一致,則該語 音聲源的命令為有效的用戶命令,若有效聲源處檢測到的肢體命令與該有效聲源確定的語 音命令不一致,則為干擾語音命令,將該命令過濾。5.根據權利要求4所述的一種用于機器人的語音和圖像復合交互執行方法,其特征在 于:機器人采用基于視覺的人體運動分析來進行運動目標檢測、運動目標分類、人體運動跟 蹤以及行為識別與描述。6.根據權利要求5所述的一種用于機器人的語音和圖像復合交互執行方法,其特征在 于:步驟三中,利用攝像頭提取人體目標,并對人體目標進行跟蹤,然后提取人體骨架,確定 人體的主干和肢體,分析人體的肢體動作,識別肢體命令。7.—種具有權利要求1-6任一所述方法的系統,其特征在于,所述系統包括:聲音探測識別單元,進行聲音探測,對聲源進行定位;圖像探測識別單元,探測機器人視場的圖像信息,在圖像中進行人臉檢測識別,并識別 和跟蹤人體目標,對人體的肢體動作進行分析,識別出肢體命令;控制單元,比較聲源和人臉的位置識別語音聲源,比較語音聲源的語音命令和肢體命 令確定用戶命令;執行單元,執行用戶命令。8.根據權利要求7所述的一種用于機器人的語音和圖像復合交互執行系統,其特征在 于:所述圖像探測識別單元包括人臉識別單元和肢體命令識別單元。9.根據權利要求8所述的一種用于機器人的語音和圖像復合交互執行系統,其特征在 于:所述人臉識別單元和聲音探測識別單元組成用戶命令識別單元。
【文檔編號】G10L21/028GK105957521SQ201610107985
【公開日】2016年9月21日
【申請日】2016年2月29日
【發明人】王運志
【申請人】青島克路德機器人有限公司