音頻處理方法及裝置的制造方法

文檔序號：10654551閱讀：363來源：國知局

音頻處理方法及裝置的制造方法
【專利摘要】本發明公開了一種音頻處理方法及裝置，屬于語音識別技術領域。所述方法包括：提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識；將每個語音片段轉換為文字信息；對每條文字信息和對應的錄音對象的對象標識進行對應顯示；解決了在回放錄音時耗費時間較長，在聽錄音時容易遺漏重要信息的問題，達到了令錄音內容與錄音對象對應，在后期查找錄音中的信息時更加便捷，提高信息查找效率的效果。
【專利說明】
音頻處理方法及裝置
技術領域
[0001]本發明涉及語音識別技術領域，特別涉及一種音頻處理方法及裝置。
【背景技術】
[0002]隨著科技的發展，通過在智能終端中安裝不同功能的軟件，能夠使得智能終端具備多種功能，比如錄音功能。
[0003]在采訪、舉辦會議或講座時，為了避免遺漏信息，可以使用具有錄音功能的終端進行錄音，在后期查找錄音中的某個信息時需要回放整個錄音的方式來查找。

【發明內容】

[0004]為了解決錄音回放浪費時間，而且聽錄音時容易遺漏重要信息的問題，本發明實施例提供了一種音頻處理方法及裝置。該技術方案如下:
[0005]根據本公開實施例的第一方面，提供了一種音頻處理方法，該方法包括:
[0006]提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識；
[0007]將每個語音片段轉換為文字信息；
[0008]對每條文字信息和對應的錄音對象的對象標識進行對應顯示。
[0009]可選的，提取音頻文件中每個錄音對象對應的語音片段，包括:
[0010]按照時間順序，將音頻文件劃分為連續的若干個語音片段，每個語音片段與一個錄音對象對應，且相鄰的兩個語音片段對應的錄音對象不同。
[0011 ]可選的，對每條文字信息和對應的錄音對象的對象標識進行對應顯示，包括:
[0012 ]以對話的形式，對每條文字信息和對應的錄音對象的對象標識進行對應顯示。
[0013]可選的，該方法還包括:
[0014]檢測錄音對象是否是已知身份的聯系人；
[0015]當錄音對象是已知身份的聯系人時，將錄音對象的對象標識替換為聯系人的聯系人標識。
[0016]可選的，該方法還包括:
[0017]接收選擇操作，選擇操作是選擇對象標識時生成的；
[0018]根據選擇操作，從文字信息中選擇與對象標識對應的文字信息；
[0019]顯示選擇的文字信息，或者，顯示選擇的文字信息和對象標識。
[0020]可選的，該方法還包括:
[0021]接收輸入的關鍵詞；
[0022]搜索包括關鍵詞的文字信息；
[0023]顯示搜索到的文字信息，或者，顯示搜索到的文字信息和對應的錄音對象的對象標識O
[0024]根據本公開實施例的第二方面，提供一種音頻處理裝置，該裝置包括:
[0025]提取模塊，被配置為提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識；
[0026]文字轉換模塊，被配置為將提取模塊提取的每個語音片段轉換為文字信息；
[0027]第一顯示模塊，被配置為對文字轉換模塊轉換的每條文字信息和對應的錄音對象的對象標識進行對應顯示。
[0028]可選的，提取模塊還被配置為:
[0029]按照時間順序，將音頻文件劃分為連續的若干個語音片段，每個語音片段與一個錄音對象對應，且相鄰的兩個語音片段對應的錄音對象不同。
[0030]可選的，第一顯示模塊還被配置為:
[0031 ]以對話的形式，對每條文字信息和對應的錄音對象的對象標識進行對應顯示。
[0032]可選的，該裝置還包括:
[0033]檢測模塊，被配置為檢測錄音對象是否是已知身份的聯系人；
[0034]標識替換模塊，被配置為當檢測模塊檢測到錄音對象是已知身份的聯系人時，將錄音對象的對象標識替換為聯系人的聯系人標識。
[0035]可選的，該裝置還包括:
[0036]選擇接收模塊，被配置為接收選擇操作，選擇操作是選擇對象標識時生成的；
[0037]文字選擇模塊，被配置為根據選擇接收模塊接收的選擇操作，從文字信息中選擇與對象標識對應的文字信息；
[0038]第二顯示模塊，被配置為顯示文字選擇模塊選擇的文字信息，或者，顯示文字選擇模塊選擇的文字信息和對象標識。
[0039]可選的，該裝置還包括:
[0040]關鍵詞接收模塊，被配置為接收輸入的關鍵詞；
[0041 ]文本搜索模塊，被配置為搜索包括關鍵詞的文字信息；
[0042]第三顯示模塊，被配置為顯示文本搜索模塊搜索到的文字信息，或者，顯示文本搜索模塊搜索到的文字信息和對應的錄音對象的對象標識。
[0043]根據本公開實施例的第三方面，提供一種音頻處理裝置，該裝置包括:
[0044]處理器；
[0045]用于存儲處理器可執行指令的存儲器；
[0046]其中，處理器被配置為:
[0047]提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識；
[0048]將每個語音片段轉換為文字信息；
[0049]對每條文字信息和對應的錄音對象的對象標識進行對應顯示。
[0050]本發明實施例提供的技術方案帶來的有益效果是:
[0051]通過提取音頻文件中的錄音對象和每個錄音對象對應的語音片段，將不同錄音對象對應的語音片段區別開，并為錄音對象分配對象標識將不同的錄音對象區別開，將提取出的每個語音片段轉換為文字信息，對每條文字信息和對應的錄音對象的標識進行對應顯示;避免了利用音頻文件查找信息時，需要回放音頻文件直到聽到需要的信息導致的錄音回放耗費時間較長，在聽錄音時還容易遺漏重要信息的問題，在語音片段轉換為文字時將錄音內容的文字信息與錄音對象對應，能夠令用戶后期更加便捷地查找音頻文件的信息，將文字信息與對象標識對應起來顯示也有助于用戶將錄音內容與錄音對象對應，提高了信息查找效率。
[0052]通過以對話的形式顯示每條文字信息和對應的錄音對象的對象標識，使得轉換后的文字信息能夠準確顯示出錄音對象及其所對應的錄音內容，方便用戶查找相應的信息。
[0053]通過檢測錄音對象是否是已知身份的聯系人，當錄音對象是已知身份的聯系人時，將錄音對象的標識的對象標識替換為聯系人的聯系人標識，使得用戶在查看轉換后的文字信息時能夠快速的分辨出錄音對象及其對應的錄音內容，方便查找信息，提高錄音內容的可讀性。
【附圖說明】
[0054]為了更清楚地說明本發明實施例中的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明的一些實施例，對于本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。
[0055]圖1是本公開一示例性實施例提供的音頻處理方法的流程圖；
[0056]圖2是本公開另一示例性實施例提供的音頻處理方法的流程圖；
[0057]圖3是本公開另一示例性實施例提供的音頻處理方法的實施示意圖；
[0058]圖4是本公開另一示例性實施例提供的音頻處理方法的流程圖；
[0059]圖5是本公開另一示例性實施例提供的音頻處理方法的流程圖；
[0060]圖6A是是本公開一示例性實施例提供的音頻處理方法的實施示意圖；
[0061 ]圖6B是是本公開一示例性實施例提供的音頻處理方法的實施示意圖；
[0062]圖6C是是本公開一示例性實施例提供的音頻處理方法的實施示意圖；
[0063]圖6D是是本公開一示例性實施例提供的音頻處理方法的實施示意圖；
[0064]圖7是本公開一示例性實施例提供的圖像顯示裝置的結構示意圖；
[0065]圖8是本公開另一示例性實施例提供的圖像顯示裝置的結構示意圖；
[ΟΟ??]圖9是一示例性實施例示出的一種圖像顯示裝置的框圖。
【具體實施方式】
[0067]這里將詳細地對示例性實施例進行說明，其示例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反，它們僅是與如所附權利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
[0068]請參照圖1，其示出了本公開一個示例性實施例提供的音頻處理方法的流程圖。該音頻處理方法適用于智能手機、平板電腦或者個人電腦等智能終端中。如圖1所示，該音頻處理方法可以包括以下步驟:
[0069]在步驟101中，提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識。
[0070]在步驟102中，將每個語音片段轉換為文字信息。[0071 ]在步驟103中，對每條文字信息和對應的錄音對象的對象標識進行對應顯示。
[0072]綜上所述，本公開實施例所提供的音頻處理方法，通過提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識，將不同錄音對象對應的語音區別開，將每個語音片段轉換為文字信息，對每條文字信息和對應的錄音對象的標識進行對應顯示;避免了利用音頻文件查找信息時，需要回放音頻文件直到聽到需要的信息導致的錄音回放耗費時間較長，在聽錄音時還容易遺漏重要信息的問題，在語音片段轉換為文字時將錄音內容的文字信息與錄音對象對應，能夠令用戶后期更加便捷地查找音頻文件的信息，將文字信息與對象標識對應起來顯示也有助于用戶將錄音內容與錄音對象對應，提高了信息查找效率。
[0073]請參照圖2，其示出了本公開另一個示例性實施例提供的音頻處理方法的流程圖。該音頻處理方法適用于智能手機、平板電腦或者個人電腦等智能終端中。如圖2所示，該音頻處理方法可以包括以下步驟:
[0074]在步驟201中，按照時間順序，將音頻文件劃分為連續的若干個語音片段，并為每個錄音對象分配對象標識，每個語音片段與一個錄音對象對應，且相鄰的兩個語音片段對應的錄音對象不同。
[0075]終端確定需要轉換成文字信息的音頻文件，按照時間順序，將待轉換的音頻文件劃分為連續的若干個語音片段。
[0076]終端可以從音頻文件的開始時間解析音頻文件，通過聲紋識別技術獲取錄音對象的聲紋。由于每個人的聲音器官、諸如聲帶、口腔、鼻腔、舌、齒、唇、肺，在發音時呈現不同，或有著各種各樣微小的差異，以及年齡、性格、語言習慣等多種原因，再加上發音容量的大小不一，發音頻率的不同，導致這些器官發出的聲音必然有著各自的特點，行成每個人獨具一格的聲紋，因此可以使用聲紋識別技術來區分錄音對象。
[0077]按照時間順序，對音頻文件的每一幀的聲紋進行識別，識別出一個聲紋即識別出一個錄音對象，為識別出的錄音對象分配對象標識，將在時間上連續的且屬于同一個聲紋的一段語音作為一個語音片段;劃分出一段語音片段后，再繼續識別下一幀的聲紋，若識別出的聲紋是在識別該音頻文件時未出現過的，則為該聲紋對應的錄音對象分配一個新的對象標識，將在時間上連續的且屬于同一個聲紋的一段語音作為一個語音片段，相鄰的兩個語音片段對應的聲紋不同，即對于的錄音對象不同；直到該音頻文件劃分結束。
[0078]劃分后的若干個語音片段在時間上仍然連續，每個語音片段與一個錄音對象對應，相鄰的兩個語音片段對應的錄音對象不同。
[0079]可選的，對象標識是頭像，或者昵稱、或者標識號。
[0080]舉例來說，某音頻文件的時長為5分鐘，從起始時間00:00到02:05解析出一個聲紋，即解析出一個錄音對象，將該錄音對象標記為“發言人I”，從00:00到02:05的語音片段對應的錄音對象為“發言人I” ；再繼續從解析02:06開始解析，到03:20解析出的聲紋為同一個聲紋，且該聲紋與“發言人I”對應的聲紋不同，即解析出另一個錄音對象，將該錄音對象標記為“發言人2”，從02:06到03:20的語音片段對應的錄音對象為“發言人2” ；再繼續從03:21解析，直到結束時間05:00，解析出的聲紋與“發言人I”對應的聲紋一致，則從03:21至05:00的語音片段對應于“發言人I”；即該音頻文件被劃分為三個語音片段，每個語音片段與一個錄音對象對應，且相鄰的兩個語音片段對應的錄音對象不同。[0081 ]可選的，當一個語音片段是幾個錄音對象以相同的說話速率說的同樣的內容時，該語音片段可以對應幾個錄音對象。比如:一個音頻文件的一段語音片段是三個學生朗誦的《靜夜思》，則該語音片段與三個錄音對象對應。
[0082]在步驟202中，檢測錄音對象是否是已知身份的聯系人。
[0083]終端通過檢測錄音對象的聲紋是否和已知身份的聯系人的聲紋一致來檢測錄音對象是否是已知身份的聯系人。
[0084]可選的，已知身份的聯系人是指聯系人的身份信息已經存儲在處理該音頻文件終端中，或已經存儲在后臺服務器，或已經存儲在處理該音頻文件的終端和后臺服務器的聯系人。
[0085]可選的，已知身份的聯系人的數量至少為一個。
[0086]可選的，已知身份的聯系人的身份信息至少包括聲紋和聯系人標識，還可以包括頭像、指紋、聯系電話、家庭住址等個人信息。
[0087]可選的，已知身份的聯系人的身份信息存儲在處理該音頻文件的終端中，通過比較終端中存儲的已知身份的聯系人的聲紋和從音頻文件中解析出的聲紋是否一致來檢測錄音對象是否是已知身份的聯系人；
[0088]或，已知身份的聯系人的身份信息存儲在后臺服務器中，當處理該音頻文件的終端與網絡連接時，通過比較服務器中存儲的已知身份的聯系人的聲紋和從音頻文件中解析出的聲紋是否一致來檢測錄音對象是否是已知身份的聯系人；
[0089]或，已知身份的聯系人的身份信息存儲在處理該音頻文件的終端和后臺服務器中，通過比較終端中和后臺服務器中存儲的已知身份的聯系人的聲紋和從音頻文件中解析出的聲紋是否一致來檢測錄音對象是否是已知身份的聯系人。
[0090]在步驟203中，當錄音對象是已知身份的聯系人時，將錄音對象的對象標識替換為聯系人的聯系人標識。
[0091]當檢測到錄音對象的聲紋與已知身份的聯系人的聲紋一致時，表示錄音對象是已知身份的聯系人，將錄音對象的對象標識替換為聯系人的聯系人標識。
[0092]比如:錄音對象A的對象標識為“發言人A”，檢測到錄音對象的聲紋和已知身份的聯系人“小王”的聲紋一致，則將“發言人A”替換為聯系人標識“小王”。
[0093]當錄音對象不是已知身份的聯系人時，不替換錄音對象的對象標識。
[0094]在步驟204中，將每個語音片段轉換為文字信息。
[0095]利用語音識別技術將劃分后的語音片段轉換為文字信息，每條文字信息與錄音對象的標識對應。
[0096]在步驟205中，以對話的形式，對每條文字信息和對應的錄音對象的對象標識進行對應顯示。
[0097]舉例來說，一個音頻文件被劃分為若干個語音片段，終端解析出該音頻文件中共有三個錄音對象，將語音片段轉換為文字信息后，在顯示界面以對話的形式，對每條文字信息和對應的錄音對象的標識進行對應顯示，如圖3所示，其示出了顯示轉換后的部分文字信息和對應的錄音對象的標識的界面。
[0098]可選的，在顯示文字信息時，終端同步播放音頻文件。
[0099]可選的，當用戶選中一條文字信息時，終端播放該文字信息對應的語音片段。
[0100]可選的，終端可以將轉換后的文字信息以文本形式導出。
[0101]綜上所述，本公開實施例所提供的音頻處理方法，通過提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識，將不同錄音對象對應的語音區別開，將每個語音片段轉換為文字信息，對每條文字信息和對應的錄音對象的標識進行對應顯示;避免了利用音頻文件查找信息時，需要回放音頻文件直到聽到需要的信息導致的錄音回放耗費時間較長，在聽錄音時還容易遺漏重要信息的問題，在語音片段轉換為文字時將錄音內容的文字信息與錄音對象對應，能夠令用戶后期更加便捷地查找音頻文件的信息，將文字信息與對象標識對應起來顯示也有助于用戶將錄音內容與錄音對象對應，提高了信息查找效率。
[0102]此外，還通過以對話的形式顯示每條文字信息和對應的錄音對象的對象標識，使得轉換后的文字信息能夠準確顯示出錄音對象及其所對應的錄音內容，方便用戶查找相應的信息。
[0103]此外，還通過檢測錄音對象是否是已知身份的聯系人，當錄音對象是已知身份的聯系人時，將錄音對象的標識的對象標識替換為聯系人的聯系人標識，使得用戶在查看轉換后的文字信息時能夠快速的分辨出錄音對象及其對應的錄音內容，方便查找信息，提高錄音內容的可讀性。
[0104]在基于圖2所示實施例的可選實施例中，該音頻處理方法還可以根據用戶選擇顯示文字信息，即在步驟205之后還可以包括步驟206、步驟207、步驟208a和步驟208b，如圖4所示:
[0105]在步驟206中，接收選擇操作，選擇操作是選擇對象標識時生成的。
[0106]用戶選擇對象標識時生成選擇操作，用戶可以通過單擊對象標識或雙擊對象標識或長按對象標識或右擊對象標識的方式來選擇對象標識。
[0107]可選的，用戶可以選擇一個對象標識或多個對象標識。
[0108]比如:對象標識是昵稱，則用戶單擊昵稱時生成選擇操作;對象標識是頭像，則用戶單擊頭像時生成選擇操作;對象標識是標識號，則用戶單擊標識號時生成選擇操作。
[0109]在步驟207中，根據選擇操作，從文字信息中選擇與對象標識對應的文字信息。
[0110]在步驟208a中，顯示選擇的文字信息。
[0111]在顯示文字信息的界面隱藏除選擇的對象標識以外的對象標識對應的文字信息，或者，在當前顯示文字信息的界面以外的其他界面生成一個新的顯示界面，在新生成的界面中顯示與選擇的對象標識對應的文字信息。
[0112]在步驟208b中，顯示選擇的文字信息和對象標識。
[0113]在顯示文字信息的界面隱藏除選擇的對象標識以外的對象標識和對象標識對應的文字信息;或者，在當前顯示文字信息的界面以外的其他界面生成一個新的顯示界面，在新生成的界面中顯示與選擇的對象標識和對象標識對應的文字信息。
[0114]此外，在顯示選擇的文字信息后，用戶還可以觸發恢復控件生成恢復操作，根據恢復操作在顯示界面恢復顯示全部的文字信息，或者根據恢復操作隱藏生成的新的顯示界面。
[0115]此外，還通過根據用戶選擇的對象標識，顯示對應的文字信息，對錄音內容按錄音對象分類整理，方便用戶后期查找對應不同錄音對象的錄音內容，提高查找信息的效率。
[0116]在基于圖2所示實施例的可選實施例中，該音頻處理方法還可以根據用戶選擇顯示文字信息，即在步驟205之后還可以包括步驟301、步驟302、步驟303a和步驟303b，如圖5所示:
[0117]在步驟301中，接收輸入的關鍵詞。
[0118]可選的，用戶在搜索區域輸入關鍵詞。
[0119]在步驟302中，搜索包括關鍵詞的文字信息。
[0120]可選的，在轉換后的所有文字信息中搜索包括關鍵詞的文字信息;或者，在預定的錄音時間范圍內搜索包括關鍵詞的文字信息。
[0121 ]在步驟303a中，顯示搜索到的文字信息。
[0122]在顯示文字信息的界面隱藏除關鍵詞以外的文字信息；或者，在當前顯示文字信息的界面以外的其他界面生成一個新的顯示界面，在新生成的界面中顯示搜索到的包括關鍵詞的文字信息。
[0123]在步驟303b中，顯示搜索到的文字信息和對應的錄音對象的對象標識。
[0124]在顯示文字信息的界面隱藏除關鍵詞以外的文字信息和對應的對象標識，或者，在當前顯示文字信息的界面以外的其他界面生成一個新的顯示界面，在新生成的界面中顯示搜索到的包括關鍵詞的文字信息和對應的對象標識。
[0125]此外，還通過根據關鍵詞搜索文字信息，顯示搜索到的文字信息，方便用戶后期查找包括關鍵詞的錄音內容，提高查找信息的效率。
[0126]在一個示意性的例子中，用戶使用手機記錄了一段會議上的發言，會議結束后，用戶打開該錄音的音頻文件，該音頻文件的播放頁面如圖6A所示，用戶點擊轉文字選項61后，提取該音頻文件中每個錄音對象對應的語音片段，并未每個錄音對象分配對象標識，共提取出3個語音片段，共有2個錄音對象，為每個錄音對象分配對象標識，兩個對象標識分別為“發言人I”和“發言人2”，根據錄音對象的聲紋，檢測到錄音對象“發言人I”是已知身份的聯系人“小王”，將對象標識“發言人I”替換為聯系人標識“小王”，由于檢測到錄音對象“發言人2”不是已知身份的聯系人，不替換對象標識“發言人2”；將3個語音片段轉換為文字信息，以對話的形式在顯示界面顯示文字信息和對應的對象標識，轉換后的文字信息如圖6B所示；用戶選擇對象標識“小王”62，在當前頁面隱藏“發言人2”對應的文字信息，只顯示“小王”對應的文字信息和對象標識“小王”，顯示“小王”對應的文字信息的顯示界面如圖6C所示；用戶點擊返回選項63，重新顯示全部的文字信息，如圖6B所示；用戶在搜索框內輸入關鍵詞“一快”，搜索得到包括“一快”的文字信息，在當前顯示界面只顯示包括“一快”的文字信息和文字信息對應的對象標識“發言人B”，如圖6D所示。
[0127]請參考圖7，其示出了本公開一個實施例提供的音頻處理裝置的結構方框圖。該音頻處理裝置可以通過軟件、硬件或兩者的結合實現成為上述可提供音頻處理方法的終端的全部或者一部分。如圖7所示，該裝置包括:
[0128]提取模塊710，被配置為提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識；
[0129]文字轉換模塊720，被配置為將每個語音片段轉換為文字信息；
[0130]第一顯示模塊730，被配置為對每條文字信息和對應的錄音對象的對象標識進行對應顯示。
[0131]綜上所述，本公開實施例所提供的音頻處理裝置，通過提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識，將不同錄音對象對應的語音區別開，將每個語音片段轉換為文字信息，對每條文字信息和對應的錄音對象的標識進行對應顯示;避免了利用音頻文件查找信息時，需要回放音頻文件直到聽到需要的信息導致的錄音回放耗費時間較長，在聽錄音時還容易遺漏重要信息的問題，在語音片段轉換為文字時將錄音內容的文字信息與錄音對象對應，能夠令用戶后期更加便捷地查找音頻文件的信息，將文字信息與對象標識對應起來顯示也有助于用戶將錄音內容與錄音對象對應，提高了信息查找效率。
[0132]請參考圖8，其示出了本公開另一個實施例提供的音頻處理裝置的結構方框圖。該音頻處理裝置可以通過軟件、硬件或兩者的結合實現成為上述可提供音頻處理方法的終端的全部或者一部分。如圖8所示，該裝置包括:
[0133]提取模塊810，被配置為提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識；
[0134]文字轉換模塊820，被配置為將提取模塊810每個語音片段轉換為文字信息；
[0135]第一顯示模塊830，被配置為對文字轉換模塊820轉換的每條文字信息和對應的錄音對象的對象標識進行對應顯示。
[0136]可選的，提取模塊810還被配置為:
[0137]按照時間順序，將音頻文件劃分為連續的若干個語音片段，每個語音片段與一個錄音對象對應，且相鄰的兩個語音片段對應的錄音對象不同。
[0138]可選的，第一顯示模塊830還被配置為:
[0139 ]以對話的形式，對每條文字信息和對應的錄音對象的對象標識進行對應顯示。
[0140]可選的，該裝置還包括:
[0141]檢測模塊840，被配置為檢測錄音對象是否是已知身份的聯系人；
[0142]標識替換模塊850，被配置為當錄音對象是已知身份的聯系人時，將錄音對象的對象標識替換為聯系人的聯系人標識。
[0143]可選的，該裝置還包括:
[0144]選擇接收模塊860，被配置為接收選擇操作，選擇操作是選擇對象標識時生成的；
[0145]文字選擇模塊870，被配置為根據選擇接收模塊860選擇操作，從文字信息中選擇與對象標識對應的文字信息；
[0146]第二顯示模塊880，被配置為顯示文字選擇模塊870選擇的文字信息，或者，顯示文字選擇模塊870選擇的文字信息和對象標識。
[0147]可選的，該裝置還包括:
[0148]關鍵詞接收模塊890，被配置為接收輸入的關鍵詞；
[0149]文本搜索模塊891，被配置為搜索包括關鍵詞的文字信息；
[0150]第三顯示模塊892，被配置為顯示文本搜索模塊891搜索到的文字信息，或者，顯示文本搜索模塊891搜索到的文字信息和對應的錄音對象的對象標識。
[0151]綜上所述，本公開實施例所提供的音頻處理裝置，通過提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識，將不同錄音對象對應的語音區別開，將每個語音片段轉換為文字信息，對每條文字信息和對應的錄音對象的標識進行對應顯示;避免了利用音頻文件查找信息時，需要回放音頻文件直到聽到需要的信息導致的錄音回放耗費時間較長，在聽錄音時還容易遺漏重要信息的問題，在語音片段轉換為文字時將錄音內容的文字信息與錄音對象對應，能夠令用戶后期更加便捷地查找音頻文件的信息，將文字信息與對象標識對應起來顯示也有助于用戶將錄音內容與錄音對象對應，提高了信息查找效率。
[0152]此外，還通過以對話的形式顯示每條文字信息和對應的錄音對象的對象標識，使得轉換后的文字信息能夠準確顯示出錄音對象及其所對應的錄音內容，方便用戶查找相應的信息。
[0153]此外，還通過檢測錄音對象是否是已知身份的聯系人，當錄音對象是已知身份的聯系人時，將錄音對象的標識的對象標識替換為聯系人的聯系人標識，使得用戶在查看轉換后的文字信息時能夠快速的分辨出錄音對象及其對應的錄音內容，方便查找信息，提高錄音內容的可讀性。
[0154]關于上述實施例中的裝置，其中各個模塊執行操作的具體方式已經在有關該方法的實施例中進行了詳細描述，此處將不做詳細闡述說明。
[0155]本公開一示例性實施例提供了一種音頻處理裝置，能夠實現本公開提供的音頻處理方法，該音頻處理裝置包括:處理器、用于存儲處理器可執行指令的存儲器;其中，處理器被配置為:
[0156]提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識；
[0157]將每個語音片段轉換為文字信息；
[0158]對每條文字信息和對應的錄音對象的對象標識進行對應顯示。
[0159]圖9是根據一示例性實施例示出的一種音頻處理裝置的框圖。例如，裝置900可以是移動電話，計算機，數字廣播終端，消息收發設備，游戲控制臺，平板設備，醫療設備，健身設備，個人數字助理等。
[0160]參照圖9，裝置900可以包括以下一個或多個組件:處理組件902，存儲器904，電源組件906，多媒體組件908，音頻組件910，輸入/輸出(I/O)接口 912，傳感器組件914，以及通信組件916，圖像識別組件917。
[0161]處理組件902通常控制裝置900的整體操作，諸如與顯示，電話呼叫，數據通信，相機操作和記錄操作相關聯的操作。處理組件902可以包括一個或多個處理器918來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件902可以包括一個或多個模塊，便于處理組件902和其他組件之間的交互。例如，處理組件902可以包括多媒體模塊，以方便多媒體組件908和處理組件902之間的交互。
[0162]存儲器904被配置為存儲各種類型的數據以支持在裝置900的操作。這些數據的示例包括用于在裝置900上操作的任何應用程序或方法的指令，聯系人數據，電話簿數據，消息，圖片，視頻等。存儲器904可以由任何類型的易失性或非易失性存儲設備或者它們的組合實現，如靜態隨機存取存儲器(SRAM)，電可擦除可編程只讀存儲器(EEPROM)，可擦除可編程只讀存儲器(EPROM)，可編程只讀存儲器(PROM)，只讀存儲器(ROM)，磁存儲器，快閃存儲器，磁盤或光盤。
[0163]電源組件906為裝置900的各種組件提供電力。電源組件906可以包括電源管理系統，一個或多個電源，及其他與為裝置900生成、管理和分配電力相關聯的組件。
[0164]多媒體組件908包括在裝置900和用戶之間的提供一個輸出接口的屏幕。在一些實施例中，屏幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果屏幕包括觸摸面板，屏幕可以被實現為觸摸屏，以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸摸傳感器以感測觸摸、滑動和觸摸面板上的手勢。觸摸傳感器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件908包括一個前置攝像頭和/或后置攝像頭。當裝置900處于操作模式，如拍攝模式或視頻模式時，前置攝像頭和/或后置攝像頭可以接收外部的多媒體數據。每個前置攝像頭和后置攝像頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
[0165]音頻組件910被配置為輸出和/或輸入音頻信號。例如，音頻組件910包括一個麥克風(MIC)，當裝置900處于操作模式，如呼叫模式、記錄模式和語音識別模式時，麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步存儲在存儲器904或經由通信組件916發送。在一些實施例中，音頻組件910還包括一個揚聲器，用于輸出音頻信號。
[0166]I/O接口912為處理組件902和外圍接口模塊之間提供接口，上述外圍接口模塊可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限于:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
[0167]傳感器組件914包括一個或多個傳感器，用于為裝置900提供各個方面的狀態評估。例如，傳感器組件914可以檢測到裝置900的打開/關閉狀態，組件的相對定位，例如組件為裝置900的顯示器和小鍵盤，傳感器組件914還可以檢測裝置900或裝置900—個組件的位置改變，用戶與裝置900接觸的存在或不存在，裝置900方位或加速/減速和裝置900的溫度變化。傳感器組件914可以包括接近傳感器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。傳感器組件914還可以包括光傳感器，如CMOS或CCD圖像傳感器，用于在成像應用中使用。在一些實施例中，該傳感器組件914還可以包括加速度傳感器，陀螺儀傳感器，磁傳感器，壓力傳感器，溫度傳感器。
[0168]通信組件916被配置為便于裝置900和其他設備之間有線或無線方式的通信。裝置900可以接入基于通信標準的無線網絡，如W1-Fi，2G或3G，或它們的組合。在一個示例性實施例中，通信組件916經由廣播信道接收來自外部廣播管理系統的廣播信號或廣播相關信息。在一個示例性實施例中，通信組件916還包括近場通信(NFC)模塊，以促進短程通信。例如，在NFC模塊可基于射頻識別(RFID)技術，紅外數據協會(IrDA)技術，超寬帶(UWB)技術，藍牙(BT)技術和其他技術來實現。
[0169]在示例性實施例中，裝置900可以被一個或多個應用專用集成電路(ASIC)、數字信號處理器(DSP)、數字信號處理設備(DSPD)、可編程邏輯器件(PLD)、現場可編程門陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現，用于執行上述圖像顯示方法。
[0170]在示例性實施例中，還提供了一種包括指令的非臨時性計算機可讀存儲介質，例如包括指令的存儲器904，上述指令可由裝置900的處理器918執行以完成上述圖像顯示方法。例如，非臨時性計算機可讀存儲介質可以是R0M、隨機存取存儲器(RAM)、⑶-R0M、磁帶、軟盤和光數據存儲設備等。
[0171]本領域技術人員在考慮說明書及實踐這里公開的發明后，將容易想到本公開的其它實施方案。本申請旨在涵蓋本公開的任何變型、用途或者適應性變化，這些變型、用途或者適應性變化遵循本公開的一般性原理并包括本公開未公開的本技術領域中的公知常識或慣用技術手段。說明書和實施例僅被視為示例性的，本公開的真正范圍和精神由下面的權利要求指出。
[0172]應當理解的是，本公開并不局限于上面已經描述并在附圖中示出的精確結構，并且可以在不脫離其范圍進行各種修改和改變。本公開的范圍僅由所附的權利要求來限制。
【主權項】
1.一種音頻處理方法，其特征在于，所述方法包括: 提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識；將每個語音片段轉換為文字信息；對每條文字信息和對應的錄音對象的對象標識進行對應顯示。2.根據權利要求1所述的方法，其特征在于，所述提取音頻文件中每個錄音對象對應的語音片段，包括: 按照時間順序，將所述音頻文件劃分為連續的若干個語音片段，每個語音片段與一個錄音對象對應，且相鄰的兩個語音片段對應的錄音對象不同。3.根據權利要求1所述的方法，其特征在于，所述對每條文字信息和對應的錄音對象的對象標識進行對應顯示，包括: 以對話的形式，對所述每條文字信息和對應的錄音對象的對象標識進行對應顯示。4.根據權利要求1所述的方法，其特征在于，所述方法還包括: 檢測所述錄音對象是否是已知身份的聯系人；當所述錄音對象是已知身份的聯系人時，將所述錄音對象的所述對象標識替換為所述聯系人的聯系人標識。5.根據權利要求1至4任一所述的方法，其特征在于，所述方法還包括: 接收選擇操作，所述選擇操作是選擇所述對象標識時生成的；根據所述選擇操作，從所述文字信息中選擇與所述對象標識對應的文字信息；顯示選擇的所述文字信息，或者，顯示選擇的所述文字信息和所述對象標識。6.根據權利要求1至4任一所述的方法，其特征在于，所述方法還包括: 接收輸入的關鍵詞；搜索包括所述關鍵詞的文字信息；顯示搜索到的所述文字信息，或者，顯示搜索到的所述文字信息和對應的錄音對象的對象標識。7.一種音頻處理裝置，其特征在于，所述裝置包括: 提取模塊，被配置為提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識；文字轉換模塊，被配置為將所述提取模塊提取的每個語音片段轉換為文字信息；第一顯示模塊，被配置為對所述文字轉換模塊轉換的每條文字信息和對應的錄音對象的對象標識進行對應顯示。8.根據權利要求7所述的裝置，其特征在于，所述提取模塊還被配置為: 按照時間順序，將所述音頻文件劃分為連續的若干個語音片段，每個語音片段與一個錄音對象對應，且相鄰的兩個語音片段對應的錄音對象不同。9.根據權利要求7所述的裝置，其特征在于，所述第一顯示模塊還被配置為: 以對話的形式，對所述每條文字信息和對應的錄音對象的對象標識進行對應顯示。10.根據權利要求7所述的裝置，其特征在于，所述裝置還包括: 檢測模塊，被配置為檢測所述錄音對象是否是已知身份的聯系人；標識替換模塊，被配置為當所述檢測模塊檢測到所述錄音對象是已知身份的聯系人時，將所述錄音對象的所述對象標識替換為所述聯系人的聯系人標識。11.根據權利要求7至10任一所述的裝置，其特征在于，所述裝置還包括: 選擇接收模塊，被配置為接收選擇操作，所述選擇操作是選擇所述對象標識時生成的；文字選擇模塊，被配置為根據所述選擇接收模塊接收的所述選擇操作，從所述文字信息中選擇與所述對象標識對應的文字信息；第二顯示模塊，被配置為顯示所述文字選擇模塊選擇的所述文字信息，或者，顯示所述文字選擇模塊選擇的所述文字信息和所述對象標識。12.根據權利要求7至10任一所述的裝置，其特征在于，所述裝置還包括: 關鍵詞接收模塊，被配置為接收輸入的關鍵詞；文本搜索模塊，被配置為搜索包括所述關鍵詞的文字信息；第三顯示模塊，被配置為顯示所述文本搜索模塊搜索到的所述文字信息，或者，顯示所述文本搜索模塊搜索到的所述文字信息和對應的錄音對象的對象標識。13.一種音頻處理裝置，其特征在于，所述裝置包括: 處理器；用于存儲所述處理器可執行指令的存儲器；其中，所述處理器被配置為: 提取音頻文件中每個錄音對象對應的語音片段，并為每個錄音對象分配對象標識；將每個語音片段轉換為文字信息；對每條文字信息和對應的錄音對象的對象標識進行對應顯示。
【文檔編號】G10L17/00GK106024009SQ201610284473
【公開日】2016年10月12日
【申請日】2016年4月29日
【發明人】朱印, 王倩, 楊靜松
【申請人】北京小米移動軟件有限公司

完整全部詳細技術資料下載