一種基于2d視頻序列的手勢識別及人機交互方法和系統的制作方法

文檔序號：9274916閱讀(du)：1114來源：國(guo)知局

一種基于2d視頻序列的手勢識別及人機交互方法和系統的制作方法
【技術領域】
[0001] 本發明涉及一種基于2D視頻序列的手勢識別及人機交互方法和系統，屬于人機交互技術領域。
【背景技術】
[0002] 基于手勢識別的體感控制技術，已經成為目前一種重要的人機交互手段。其通過普通攝像頭采集用戶的動作畫面，通過模式識別算法，對圖像中的手部特征進行檢測和定位，再通過識別出人手的姿態和運動軌跡等，將這種識別信息轉化為操作信號，反饋給智能終端，并觸發相應的操作命令，如電視節目的切換，音量的調節，圖片、網頁的放大、縮小，簡單的體感游戲的操控，如切水果、打球、駕駛類等游戲。手勢識別技術基于智能終端所配備的攝像頭，在終端安裝相應的識別軟件，即可完成以上操作，因而在硬件成本和操作方式上都具有極大的優勢，該技術可以用來操控電視、個人電腦、平板電腦和智能手機等消費電子設備。
[0003] 根據手勢識別的研宄和應用的發展過程，大致可以劃分為以下幾種技術手段：
[0004] (1)基于數據手套或佩戴物：通過用戶佩戴特制的手套或者標識物，通過攝像頭來進行識別，手套本身是特殊設計的，具有明顯的特征，因而可以降低檢測和識別算法的復雜性，但是這種佩戴式的操作方式，顯然難以滿足自然的人機交互的需要，因而該方法始終未得到廣泛的應用；
[0005] (2)基于3D深度相機：代表技術為微軟的KINECT產品，其通過三維掃描設備，獲取操作者的動態三維模型，因為其工作在3D空間，因而避免了 2D空間中存在的顏色干擾、圖像分割等大量的難題。但是3D掃描設備體積較大，硬件成本較高，所需的運算能力更高，因而難以集成并應用到大眾化的智能終端如電視、手機等設備上；
[0006] (3)基于普通攝像頭2D圖像識別的技術：由于這種技術是基于普通攝像頭來實現的，因而也是最具有大規模應用潛力的技術。本申請人所提交的申請號為201310481745. X的專利申請公開了"一種基于單目視頻序列的目標人手勢交互方法"，其通過對人手靜止姿態或單手手勢進行識別，從而可以應用于低運算能力的嵌入式平臺進行人機交互。但是該申請仍然存在以下缺點：a)由于缺乏深度信息，在復雜環境中人手的提取會比較困難； b)普通的2D攝像頭對光線很敏感，并且要實現對于像人手這種非剛性、少紋理的目標進行高精度跟蹤，在復雜環境下將會面臨很大的挑戰；c)由于噪聲、距離、還有每個人習慣的不同，也會導致對人手的各種姿態和手勢的識別造成一定的影響；d)無法實現人手的雙手姿態及手勢的識別；e)對于雙手識別而言，如何處理兩只手交叉等問題，也是一個難題。因而，仍然需要發明人繼續進行研宄改進。

【發明內容】

[0007] 本發明的目的在于，提供一種基于2D視頻序列的手勢識別及人機交互方法和系統，它可以有效解決現有技術中存在的問題，尤其是普通的2D攝像頭對光線很敏感，要實現對人手這種非剛性、少紋理的目標進行高精度跟蹤，將會面臨很大挑戰的問題。
[0008] 為解決上述技術問題，本發明采用如下的技術方案：一種基于2D視頻序列的手勢識別及人機交互方法，包括以下步驟：
[0009]S1，獲取單目2D視頻幀序列圖像，并提取該圖像中的運動前景（從而可以剔除靜止物體，初步挑選出人手可能出現的區域，減少人手定位的計算量）；
[0010] S2,在所述的運動前景中檢測人手，并構建人手的聯合特征模型；
[0011] S3,預測人手目標出現的位置區域，并在該位置區域中利用人手的聯合特征模型搜索、定位人手目標，獲得人手在當前幀中的位置；
[0012] S4,根據人手在當前幀中的位置判斷當前的操作模式類型；
[0013] S5,對人手進行跟蹤，識別當前操作模式下人手的姿態和手勢；將所述的姿態和手勢轉換為相應的指令，實現人機交互。
[0014] 對于步驟S2中的聯合特征模型，可采用直接融合更新、多樣本庫更新或在線學習等方式進行模型更新，尤其是采用直接融合的方式進行更新，更新時的權重計算函數采用模型匹配相似度的線性函數，從而可以及時的反映目標模型在短時間內的快速變化，能夠實時的匹配人手的快速移動的特點。
[0015] 本發明的步驟S1中，可通過GMM運動檢測算法對圖像中的運動前景進行提取，使得運動前景的提取更高效、更穩定，同時本發明對于運動檢測模塊的模型更新策略采用了局部更新速率自適應調整的方式。
[0016] 本發明的步驟S2中，在所述的運動前景中通過Haar與LBP的聯合特征檢測人手，分類器采用Adaboost，采用此聯合特征進行檢測，從而可以在提升檢測率的同時，使得計算速度也非常快，滿足實時的要求，適合移植到嵌入式系統中。
[0017] 本發明的步驟S2中，所述的聯合特征模型由顏色、形狀、紋理、結構、梯度特征模型中的任意兩種或多種融合而成，相對于單顏色模型，使得人手的識別與跟蹤更加穩定可靠，精度更高，且能夠克服復雜環境以及人手的快速運動產生的形變干擾。
[0018] 優選的，步驟S2中，所述的聯合特征模型由顏色和紋理特征模型通過核函數融合而成，從而可以進一步增加中心部分的權重，減小邊緣部分的權重的方式，減少背景的干擾，提尚了跟蹤的穩定性與精確度。
[0019] 此外，本發明通過neon、OpenMP、多線程優化算法對硬件進行加速，使得本發明采用聯合特征模型進行跟蹤與檢測，不僅人手的識別與跟蹤更加穩定可靠，精度更高，而且計算時間大大減少，在移動平臺上運行非常流暢。
[0020] 所述的核函數可以為高斯核函數、多項式核函數、徑向基核函數等，尤其是采用高斯核函數對顏色和紋理特征進行融合，可以進一步減少背景的干擾，提高跟蹤的穩定性與精確度。
[0021] 具體的，采用高斯核函數對顏色和紋理特征進行融合包括以下步驟：
[0022] (1)加權提取顏色直方圖特征模型和LBP紋理直方圖特征模型；
[0023] (2)利用所述的顏色直方圖特征模型和LBP紋理直方圖特征模型分別對人手目標進行搜索，獲得兩個搜索結果；
[0024] (3)將所述的兩個搜索結果通過線性方式進行融合，相似度為權值，相似度大的權重大，相似度小的權重小，得聯合特征模型（即顏色直方圖+LBP紋理直方圖的聯合特征直方圖），具體的，所述的聯合特征模型為：
[0025]
[0026] 其中，Rectresult為最終融合的結果；colorSim為顏色跟蹤的相似度（0~1)， lbpSim為紋理跟蹤的相似度（0~1)，RectralOT為顏色跟蹤的結果，Rectlbp為紋理跟蹤的結果。
[0027] 步驟S3中，采用均值漂移的搜索方式對目標人手進行搜索，相對于逐像素搜索、粒子群搜索速度更快，更適合本發明中實時應用。
[0028] 前述的基于2D視頻序列的手勢識別及人機交互方法中，步驟S3具體包括以下步驟：通過對目標人手的軌跡分析，預測人手在當前幀中的位置，以該位置為中心確定目標可能存在的區域；遍歷該區域中所有目標人手大小的矩形框，提取每個矩形框的聯合特征，與樣本庫中的樣本進行匹配，獲得人手在當前幀中的位置，并利用人手特征和軌跡更新模型樣本庫。
[0029] 其中，步驟S3中所述的通過對目標人手的軌跡分析，預測人手在當前幀中的位置，以該位置為中心確定目標可能存在的區域具體包括：假設目標在短時間內勻速運動，利用目標的前3幀運動信息計算出其運動的平均速度和方向；再根據計算出的平均速度和方向預測下一幀中目標可能出現的位置；以預測出的下一幀中目標可能出現的位置為中心，并根據目標當前的平均運動速度確定搜索區域，在該搜索區域中精確跟蹤定位人手的實際位置。
[0030] 另外，

完整全(quan)部詳細(xi)技術資料下載

當前第1頁1 2 3 4