一種基于2d視頻序列的手勢識別及人機交互方法和系統的制作方法
【技術領域】
[0001] 本發明涉及一種基于2D視頻序列的手勢識別及人機交互方法和系統,屬于人機 交互技術領域。
【背景技術】
[0002] 基于手勢識別的體感控制技術,已經成為目前一種重要的人機交互手段。其通過 普通攝像頭采集用戶的動作畫面,通過模式識別算法,對圖像中的手部特征進行檢測和定 位,再通過識別出人手的姿態和運動軌跡等,將這種識別信息轉化為操作信號,反饋給智能 終端,并觸發相應的操作命令,如電視節目的切換,音量的調節,圖片、網頁的放大、縮小,簡 單的體感游戲的操控,如切水果、打球、駕駛類等游戲。手勢識別技術基于智能終端所配備 的攝像頭,在終端安裝相應的識別軟件,即可完成以上操作,因而在硬件成本和操作方式上 都具有極大的優勢,該技術可以用來操控電視、個人電腦、平板電腦和智能手機等消費電子 設備。
[0003] 根據手勢識別的研宄和應用的發展過程,大致可以劃分為以下幾種技術手段:
[0004] (1)基于數據手套或佩戴物:通過用戶佩戴特制的手套或者標識物,通過攝像頭 來進行識別,手套本身是特殊設計的,具有明顯的特征,因而可以降低檢測和識別算法的復 雜性,但是這種佩戴式的操作方式,顯然難以滿足自然的人機交互的需要,因而該方法始終 未得到廣泛的應用;
[0005] (2)基于3D深度相機:代表技術為微軟的KINECT產品,其通過三維掃描設備,獲 取操作者的動態三維模型,因為其工作在3D空間,因而避免了 2D空間中存在的顏色干擾、 圖像分割等大量的難題。但是3D掃描設備體積較大,硬件成本較高,所需的運算能力更高, 因而難以集成并應用到大眾化的智能終端如電視、手機等設備上;
[0006] (3)基于普通攝像頭2D圖像識別的技術:由于這種技術是基于普通攝像頭來實現 的,因而也是最具有大規模應用潛力的技術。本申請人所提交的申請號為201310481745. X的專利申請公開了"一種基于單目視頻序列的目標人手勢交互方法",其通過對人手靜止 姿態或單手手勢進行識別,從而可以應用于低運算能力的嵌入式平臺進行人機交互。但是 該申請仍然存在以下缺點:a)由于缺乏深度信息,在復雜環境中人手的提取會比較困難; b)普通的2D攝像頭對光線很敏感,并且要實現對于像人手這種非剛性、少紋理的目標進行 高精度跟蹤,在復雜環境下將會面臨很大的挑戰;c)由于噪聲、距離、還有每個人習慣的不 同,也會導致對人手的各種姿態和手勢的識別造成一定的影響;d)無法實現人手的雙手姿 態及手勢的識別;e)對于雙手識別而言,如何處理兩只手交叉等問題,也是一個難題。因 而,仍然需要發明人繼續進行研宄改進。
【發明內容】
[0007] 本發明的目的在于,提供一種基于2D視頻序列的手勢識別及人機交互方法和系 統,它可以有效解決現有技術中存在的問題,尤其是普通的2D攝像頭對光線很敏感,要實 現對人手這種非剛性、少紋理的目標進行高精度跟蹤,將會面臨很大挑戰的問題。
[0008] 為解決上述技術問題,本發明采用如下的技術方案:一種基于2D視頻序列的手勢 識別及人機交互方法,包括以下步驟:
[0009]S1,獲取單目2D視頻幀序列圖像,并提取該圖像中的運動前景(從而可以剔除靜 止物體,初步挑選出人手可能出現的區域,減少人手定位的計算量);
[0010] S2,在所述的運動前景中檢測人手,并構建人手的聯合特征模型;
[0011] S3,預測人手目標出現的位置區域,并在該位置區域中利用人手的聯合特征模型 搜索、定位人手目標,獲得人手在當前幀中的位置;
[0012] S4,根據人手在當前幀中的位置判斷當前的操作模式類型;
[0013] S5,對人手進行跟蹤,識別當前操作模式下人手的姿態和手勢;將所述的姿態和手 勢轉換為相應的指令,實現人機交互。
[0014] 對于步驟S2中的聯合特征模型,可采用直接融合更新、多樣本庫更新或在線學習 等方式進行模型更新,尤其是采用直接融合的方式進行更新,更新時的權重計算函數采用 模型匹配相似度的線性函數,從而可以及時的反映目標模型在短時間內的快速變化,能夠 實時的匹配人手的快速移動的特點。
[0015] 本發明的步驟S1中,可通過GMM運動檢測算法對圖像中的運動前景進行提取,使 得運動前景的提取更高效、更穩定,同時本發明對于運動檢測模塊的模型更新策略采用了 局部更新速率自適應調整的方式。
[0016] 本發明的步驟S2中,在所述的運動前景中通過Haar與LBP的聯合特征檢測人手, 分類器采用Adaboost,采用此聯合特征進行檢測,從而可以在提升檢測率的同時,使得計算 速度也非常快,滿足實時的要求,適合移植到嵌入式系統中。
[0017] 本發明的步驟S2中,所述的聯合特征模型由顏色、形狀、紋理、結構、梯度特征模 型中的任意兩種或多種融合而成,相對于單顏色模型,使得人手的識別與跟蹤更加穩定可 靠,精度更高,且能夠克服復雜環境以及人手的快速運動產生的形變干擾。
[0018] 優選的,步驟S2中,所述的聯合特征模型由顏色和紋理特征模型通過核函數融合 而成,從而可以進一步增加中心部分的權重,減小邊緣部分的權重的方式,減少背景的干 擾,提尚了跟蹤的穩定性與精確度。
[0019] 此外,本發明通過neon、OpenMP、多線程優化算法對硬件進行加速,使得本發明采 用聯合特征模型進行跟蹤與檢測,不僅人手的識別與跟蹤更加穩定可靠,精度更高,而且計 算時間大大減少,在移動平臺上運行非常流暢。
[0020] 所述的核函數可以為高斯核函數、多項式核函數、徑向基核函數等,尤其是采用高 斯核函數對顏色和紋理特征進行融合,可以進一步減少背景的干擾,提高跟蹤的穩定性與 精確度。
[0021] 具體的,采用高斯核函數對顏色和紋理特征進行融合包括以下步驟:
[0022] (1)加權提取顏色直方圖特征模型和LBP紋理直方圖特征模型;
[0023] (2)利用所述的顏色直方圖特征模型和LBP紋理直方圖特征模型分別對人手目標 進行搜索,獲得兩個搜索結果;
[0024] (3)將所述的兩個搜索結果通過線性方式進行融合,相似度為權值,相似度大的權 重大,相似度小的權重小,得聯合特征模型(即顏色直方圖+LBP紋理直方圖的聯合特征直 方圖),具體的,所述的聯合特征模型為:
[0025]
[0026] 其中,Rectresult為最終融合的結果;colorSim為顏色跟蹤的相似度(0~1), lbpSim為紋理跟蹤的相似度(0~1),RectralOT為顏色跟蹤的結果,Rectlbp為紋理跟蹤的結 果。
[0027] 步驟S3中,采用均值漂移的搜索方式對目標人手進行搜索,相對于逐像素搜索、 粒子群搜索速度更快,更適合本發明中實時應用。
[0028] 前述的基于2D視頻序列的手勢識別及人機交互方法中,步驟S3具體包括以下步 驟:通過對目標人手的軌跡分析,預測人手在當前幀中的位置,以該位置為中心確定目標可 能存在的區域;遍歷該區域中所有目標人手大小的矩形框,提取每個矩形框的聯合特征,與 樣本庫中的樣本進行匹配,獲得人手在當前幀中的位置,并利用人手特征和軌跡更新模型 樣本庫。
[0029] 其中,步驟S3中所述的通過對目標人手的軌跡分析,預測人手在當前幀中的位 置,以該位置為中心確定目標可能存在的區域具體包括:假設目標在短時間內勻速運動,利 用目標的前3幀運動信息計算出其運動的平均速度和方向;再根據計算出的平均速度和方 向預測下一幀中目標可能出現的位置;以預測出的下一幀中目標可能出現的位置為中心, 并根據目標當前的平均運動速度確定搜索區域,在該搜索區域中精確跟蹤定位人手的實際 位置。
[0030] 另外,