用于判斷視頻會議現場的觀看者作出特定行為的持續時間和/或參與人數的比例是否超過第一預定值,和/或判斷視頻會議現場的觀看者作出特定行為的持續時間和/或參與人數的比例是否低于第五預定值;第二發送模塊耦合至第二判斷模塊,用于方將視頻會議現場的視頻數據和/或音頻數據發送給視頻發送方,其中,發送的條件為:視頻會議現場的觀看者作出特定行為的持續時間和/或參與人數的比例超過第一預定值,和/或視頻會議現場的觀看者作出特定行為的持續時間和/或參與人數的比例低于第五預定值。
[0048]為了使本發明的技術方案和實現方法更加清楚,下面將結合優選的實施例對其實現過程進行詳細描述。
[0049]本優選實施例提供了一種視頻會議或直播中熱點場景的檢測和檢索方法,該方法用于在視頻會議或直播過程中,實時識別觀看者對視頻的反應動作,以此判斷熱點場景,并自動生成熱點場景的檢索關鍵詞,包括如下之一的特征:
[0050]1、實時分析觀看視頻一方或多方的觀看者的動作,識別觀看者對視頻做出的討論、注視、鼓掌等反應,將反應動作集中的片段作為熱點場景,同時得到熱點場景在視頻中出現的時段;對上述熱點場景中的音頻數據進行語音識別,統計所識別的詞匯的出現頻率,并將頻繁出現的詞匯作為該熱點場景的檢索關鍵詞。
[0051]2、識別觀看者對視頻做出的討論、注視、鼓掌等反應動作,視頻會議或直播中,其中一方或多方當前視頻的觀看者,在本地有圖像傳感器、深度傳感器等設備,能夠實時獲得觀察者對視頻做出的反應動作,對這些反應動作進行分析識別。
[0052]3、識別觀看者對視頻做出的反應動作,并與模板進行匹配,判斷當前反應動作是否是討論、注視、鼓掌等動作。
[0053]4、如果確定屬于與上述模板匹配的動作,則跟蹤該動作的持續時間或參與人數比例,如果持續時間或參與人數比例超過某個閾值,認為觀看者對該視頻片段有興趣,由此判斷該視頻片段為熱點場景,并記錄在視頻會議或直播中所處的時間位置。
[0054]5、對檢測到的熱點場景中的音頻數據進行語音識別,統計所識別的詞匯的出現頻率,并將頻繁出現的詞匯作為熱點場景的檢索關鍵詞。
[0055]6、視頻會議或直播中,其中一方或多方當前視頻的觀看者,在本地有聲音傳感器等設備,能夠實時獲得觀看者對視頻做出的反應語音,在檢測到熱點場景后,同時識別熱點場景時段,觀看者對視頻做出的反應語音,統計所識別的詞匯的出現頻率,并將頻繁出現的詞匯作為熱點場景的檢索關鍵詞。
[0056]7、獲取當前視頻和觀看者在熱點場景時段的語音后,同時分析熱點場景的語音和觀看者反應語音,統計所識別的詞匯的出現頻率,選擇兩者都具有的出現頻率高的詞匯作為熱點場景的檢索關鍵詞。
[0057]8、在熱點場景時段,分析某個反應動作的持續時間或參與人數比例,將反應更強烈或較弱的觀看者以適當的方式呈現給視頻發送方,可以讓視頻發送方更直接的獲得觀看者對當前視頻的感受,便于發送方做出相應的調整。
[0058]9、在熱點場景時段,同時分析熱點場景的語音和觀看者的反應語音,統計所識別的詞匯的出現頻率,選擇其中頻率最高的3?5個詞匯進行比較,如果觀看者的詞匯和詞匯出現的頻率與熱點場景中的詞匯和詞匯出現的頻率接近,則認為觀看者對熱點場景做出了正面的反應,否則認為觀看者對熱點場景做出了負面的反應,或者沒有反應。將上述統計結果以適當的形式反饋給視頻發送方,便于發送方做出相應的調整。
[0059]10、以觀看者反應動作或反應語音為依據選擇一個或多個觀看者呈現給視頻發送方,其呈現方式包括:實時的文字顯示、文本日志記錄、該時段的視頻記錄、以及實時的視頻顯示等。視頻發送方也可以選擇將觀看者的視頻呈現給觀看者。
[0060]其中,上述特征在不沖突的情況下可以相互結合描述和說明。
[0061]優選地,如圖3所示,在某個觀看者地點,可能有一個或多個觀看者,但一般觀看者地點只有一個圖像傳感器和深度傳感器。圖像傳感器和深度傳感器,實時采集觀看者地點所有觀看者的圖像和深度信息。系統首先檢測并跟蹤觀看者的人臉、人手、眼睛等,并分析人臉、人手、眼睛的移動或做出的動作,一旦這些動作與預先存儲的模板中的動作相匹配,即認為觀看者對視頻做出了反應動作。如兩個或多個人臉朝向一個方向,同時唇部形狀發生變化,即認為觀看者在討論問題;如在短時間內,同一人的雙手的手掌不斷發生碰撞和離開的動作,即認為觀看者在鼓掌;如同時有多個觀看者的眼睛朝向屏幕方向,并保持該狀態一段時間,即認為觀看者在注視屏幕。如果在該觀看者地點,一段時間內識別出的反應動作持續了足夠的時間,或持續時間稍短但做出反應的觀看者所占的比例超過某一閾值,即認為該觀看者地點的觀看者對視頻做出了反應動作,該時段的視頻為熱點場景。
[0062]優選地,由視頻發送方實時匯總所有觀看者地點對熱點場景的檢測結果,一旦發現判斷某個時段為熱點場景的觀看者地點總數所在比例超過某個閾值(如80% ),即認為該時段為視頻會議或直播的熱點場景。
[0063]優選地,如圖4所示,視頻語音存儲模塊位于視頻發送方或者視頻會議或直播服務器,負責存儲視頻會議或直播過程中的語音數據。當視頻發送方認為某個時段為熱點場景后,視頻發送方對該時段內存儲的語音進行語音識別,并統計該時段內出現這些詞匯的總數,并將出現頻率最高的3?5個詞匯作為該時段的檢索關鍵詞。
[0064]優選地,如圖5所示,每個觀看者地點也可以通過聲音傳感器采集該地點觀看者發出的語音,并存儲在觀看者語音存儲模塊。當視頻發送方認為某個時段為熱點場景后,視頻發送方將檢測結果分發給各個觀看者地點,有觀看者地點的系統負責對該時段內的語音進行語音識別,并統計該時段內出現這些詞匯的總數,并將統計結果匯總給視頻發送方。視頻發送方從視頻語音存儲中識別到的詞匯統計結果與各觀看者地點提交的詞匯統計結果進行比較,選擇出現頻率最高的3?5個詞匯作為當前熱點場景的檢索關鍵詞。
[0065]優選地,如圖6所示,視頻發送方判斷某個時段為熱點場景,并得出熱點場景的檢索關鍵詞后,再與各觀看者地點提交的觀看者在熱點場景時段發出的反應語音的檢索關鍵詞進行比較。如果對比頻率最高的3?5個詞匯一致,認為該觀看者地點對視頻做出了正面的反應。視頻發送方匯總各觀看者地點提交的對熱點場景時段所做反應動作的持續時間和參與人數,如果持續時間較長或者參與人數較多,認為該觀看者地點對視頻做出了正面的反應。
[0066]優選地,如圖7所示,通過上述兩種方法得出觀看者對視頻反應的程度,并以此為依據選擇一個或多個觀看者呈現給視頻發送方,其呈現方式包括:實時的文字顯示、文本日志記錄、該時段的視頻記錄、以及實時的視頻顯示等。視頻發送方也可以選擇將觀看者的視頻呈現給觀看者。
[0067]綜上所述,通過本發明的上述實施例或優選實施例和優選實施方式,通過分析觀看視頻一方或多方的觀看者的動作,識別觀看者對視頻做出的討論、注視、鼓掌等反應,將反應動作集中的片段作為熱點場景,同時得到熱點場景在視頻中出現的時段