語音輸入方法及裝置的制作方法

文(wen)檔序(xu)號：6603287閱讀：674來源：國知局

專利名稱：語音輸入方法及裝置的制作方法
技術領域：
本發明涉及一種計算機語音輸入技術，特別的涉及將說話語音轉變為相應文字的語音輸入方法及裝置。
背景技術：
計算機的出現給人們書寫文字和寫作提供了巨大的方便，它使得任何稍微懂得計算機的人都可以方便地寫任何文件、書信。迄今為止，用計算機書寫文字的最好和使用最為普遍的方法是用鍵盤。但是這方法有兩個缺點，一是速度慢，尤其是用戶鍵盤輸入中文，因為鍵盤本質上是為輸入西方文字而設計的；二是要求使用者有必要的鍵盤輸入的訓練和技巧，尤其是具有較高輸入速度要求的時候。由于用鍵盤輸入文字速度慢，而人們說話的速度遠遠快于鍵盤輸入的速度，所以它不適于做會議、談話的記錄。而對于沒有經過專門訓練的人，用鍵盤來快速輸入篇幅比較長的中文，是一項非常困難的工作。美國的IBM公司在過去一些年做了不少語音識別和語音合成的研究工作，在此基礎上開發出了名為“VIAV0ICE”的語音識別技術和產品。它是個開發成熟而使用較廣的技術，目前已應用在許多公司的手機和其它電子產品上，用于接收用戶發出的語音指令。但是該技術識別短語和單詞的量有限，識別的正確率約在50-70%之間。由于錯誤比例太大，使用起來很不方便，所以除了用在手機指令系統，其他使用場合很少見到。此外其他幾個公司也做過類似語音輸入的嘗試，結果并不比IBM技術更好，因此其技術基本不為市場所接受，產品也無人問津。VIAV0ICE和其他現存語音識別與輸入技術內容總的來說，都是用查字典(數據庫)的方式完成的。即對一種語言，建立一個詞匯發音與對應詞匯文字的盡可能完全的數據庫。用戶說出的話被話筒收入后，輸入計算機轉為數值音頻信號。對于相應于音頻信號中每個字詞的音素，其技術通過查找數據庫把相應的詞尋找出來，由此把語音輸入轉換為文字。其工作過程由圖1所示。然而由于對應一個音素，往往有多個字或者詞，而僅憑查數據庫無法確定應該取哪一個，所以上述產品都默認采取數據庫中的第一個字或詞。這樣難免發生較高的錯誤率，見圖1，在“中國，古老而美麗的國家“這樣一句話語音輸入中，出現了兩處錯誤。VIAV0ICE和其他現存語音識別與輸入技術的另外一個出錯的來源是噪音的干擾。當人說出的話語通過話筒輸入電腦而轉化為數值音素時，由于話筒質量問題、音頻采集過程和數模轉化，不可避免地都會產生噪音，這些噪音疊加在語音信號上，在輸入音素中占相當大的比例，從而導致偽語音輸入信號，必然導致語音識別容易出現錯誤。中國國家知識產權局公開的申請號為01144523. 8發明專利申請公開說明書公開了一種語音輸入方法及裝置，其主要功能面向手提數字電子設備的語言指令系統，語言都較為簡短，但是該技術與VIAV0ICE —樣，存在上文所述的不足。

發明內容
本發明的首要目的在于提供一種能夠降低語音識別錯誤率、并且具有智能識別功能的語音輸入方法，其次在于提供一種能夠實現語音輸入高識別率、智能識別輸入的裝置。
實現本發明目的的技術方案是一種語音輸入方法，具有如下步驟1)由語音收集器收入用戶發出的語音；2)把收集到語音中的噪音過濾掉；3)根據語音_字詞數據庫辨認出相應文字；4)根據輸入的上下文對輸入的文字進行更正，以獲得正確的文字；5)將得到的全部輸入文字顯示出來或者輸入文件。上述步驟2)包括如下步驟a、將語音收集器中的語音電流信號轉換成數字音頻信號；b、將數字音頻信號進行Z變換，過濾掉說話頻率之外的頻率；C、將剩余的音頻信號進行Z變換的逆變換，得到過濾后的語音信號。上述步驟3)中語音-字詞數據庫包括吳語字數據庫、廣東話音字數據庫、四川話音字數據庫、普通話音字數據庫、英國英語數據庫和美國英語數據庫。上述步驟3)和4)中由智能語音識別器進行判斷識別，判斷時由智能語音識別器的智能語言識別核心讀入字詞數據庫、語法數據庫、慣用法數據庫和文章領域、風格與內容數據庫，以選擇最合適的字詞。上述文章領域、風格和內容信息數據庫隨著識別語音內容的不斷增多而不斷將輸入內容信息補充到自身數據庫中。一種語音輸入裝置，包括語音收集器、數模轉換音卡、Z變換集成電路模塊、智能語音識別器、存儲器和顯示模塊，上述語音收集器與數模轉換音卡連接，數模轉換音卡與Z變換集成電路模塊連接，Z變換集成電路模塊與存儲器連接，智能語音識別器與存儲器連接，顯示模塊與存儲器連接。上述智能語音識別器具有智能語言識別核心，存儲器包括字詞數據庫、語法數據庫、慣用法數據庫和文章領域、風格與內容信息數據庫，上述智能語言識別核心分別與字詞數據庫、語法數據庫、慣用法數據庫和文章領域、風格與內容信息數據庫連接。本發明具有如下好處1、提供了一個高分辨率和高質量的語音輸入技術，使得計算機和其他電子器件的語音輸入的錯誤率大大降低，語音輸入文字成為一項可以普遍接受使用，代替鍵盤輸入的一項快速簡單的文字輸入和文章書寫的方式；2、使用本發明技術，可使用計算機和其他電子器材(如手機，掌上電腦等)對會議，交談做實時快速的記錄，大大提高這類場合的文字記錄的速度。3、使用本發明技術，可以使得各行各業的人們快速簡單地用口述的方式書寫，進行文章報道、產品說明，而不需要經過專門的訓練。4、使用本發明技術可以使得機器、電器準確地聽懂人的語言指令，避免低分辨率的指令輸入系統可能有的由聽錯指令造成錯誤的情況。5、此發明技術還可以使得聾人“讀懂”他人說的話，即他人說的話在他隨身攜帶的電子器件上自動轉化成文字并顯示出來。

圖1為本發明之前語音輸入步驟示意圖。圖2為本發明語音輸入過程示意圖。圖3為本發明進行語音智能識別過程示意圖。
具體實施方式
見圖2和圖3，本發明裝置包括高質量的輸入話筒、高分辨率的數模轉換音卡、Z 變換集成電路模塊、智能語音識別器、存儲器和顯示模塊，上述輸入話筒與數模轉換音卡連接，數模轉換音卡與Z變換集成電路模塊連接，Z變換集成電路模塊與存儲器連接，智能語音識別器與存儲器連接，顯示模塊與存儲器連接。智能語音識別器具有智能語言識別核心，存儲器包括字詞數據庫、語法數據庫、慣用法數據庫和文章領域、風格與內容信息數據庫各個單元，智能語言識別核心分別與字詞數據庫、語法數據庫、慣用法數據庫和文章領域、風格與內容信息數據庫各單元連接。在語音輸入過程中，用戶的說話通過輸入話筒轉化成電流信號，并輸入到數模轉換音卡中，轉換成數字音頻信號。由于語音輸入環境及技術處理問題，數字音頻信號中混有噪音，分背景噪音、話筒反映噪音和數模轉換噪音，這些噪音會影響對語音的判斷，并可能造成語音識別的錯誤。Z變換集成電路用來對經過數字音頻信號進行Z變換及Z變換的逆變換，Z變換為數學上的離散數值變換，經過Z變換后的數字音頻信號由原來的按時間領域分布改變為按頻率領域分布，這樣可以方便的區分出噪音頻率和需要輸入的語音頻率，并把噪音頻率去除，然后再進行Z變換的逆變換，把過濾后的音頻信號回復到按時間領域分布的狀態，此時原來存在的噪音被去除了。語音的識別工作由語音識別器完成，語音識別器中存有多種話音數據庫，包括吳語音字數據庫、廣東話音字數據庫、四川話音字數據庫、普通話音字數據庫、英國英語數據庫和美國英語數據庫，這些數據庫可以由用戶選擇使用，可以設定默認的使用數據庫種類或者設定兩個以上的數據庫作為使用范圍。經過過濾的語音數字音頻信號由語音識別器進行識別，首先對語音進行判斷，將代表單個獨立詞的音素區分開，然后對照選定的話音字數據庫，找出對應該因素的字、詞，由于限定了語音字數據庫，可以較準確的找出對應的字、詞。當用戶說完一個句子或者一個段落時，智能語音識別器需要再次對這個句子或者段落進行整體識別，參照上下文確定每一個字、詞。此時智能語音識別器的智能語言識別核心需要調用字詞數據庫、語法數據庫、慣用法數據庫和判斷文章的領域、風格與內容信息數據庫的相關內容，對句子或者段落的不流暢、有歧義的地方進行糾正，以獲得最符合語音來源者本意的文字，并且最終通過顯示單元顯示出來，當然也可以將這些文字材料直接輸出到用戶選擇的通道，比如直接存入文件，或者通過網絡傳送出去。智能語言識別核心調用的文章的領域、風格與內容信息數據庫能夠在識別過程中，隨著輸入的語言增多而不斷補充其內容，這些增加的內容又可以被智能語言識別核心調用，即領域、風格與內容信息數據庫具有自我學習功能。
權利要求
一種語音輸入方法，具有如下步驟1)由語音收集器收入用戶發出的語音；2)把收集到語音中的噪音過濾掉；3)根據語音-字詞數據庫辨認出相應文字；4)根據輸入的上下文對輸入的文字進行更正，以獲得正確的文字；5)將得到的全部輸入文字顯示出來或者輸入文件。
2.根據權利要求1所述的語音輸入方法，其特征在于上述步驟2)包括如下步驟a、將語音收集器中的語音電流信號轉換成數字音頻信號；b、將數字音頻信號進行Z變換，過濾掉說話頻率之外的頻率；c、將剩余的音頻信號進行Z變換的逆變換，得到過濾后的語音信號。
3.根據權利要求1所述的語音輸入方法，其特征在于上述步驟3)中語音-字詞數據庫包括吳語字數據庫、廣東話音字數據庫、四川話音字數據庫、普通話音字數據庫、英國英語數據庫和美國英語數據庫。
4.根據權利要求1所述的語音輸入方法，其特征在于上述步驟3)和4)中由智能語音識別器進行判斷識別，判斷時由智能語音識別器的智能語言識別核心讀入字詞數據庫、語法數據庫、慣用法數據庫和文章領域、風格與內容數據庫，以選擇最合適的字詞。
5.根據權利要求4所述的語音輸入方法，其特征在于上述文章領域、風格和內容信息數據庫隨著識別語音內容的不斷增多而不斷將輸入內容信息補充到自身數據庫中。
6.一種可以實現權利要求1所述方法的語音輸入裝置，其特征在于包括語音收集器、數模轉換音卡、Z變換集成電路模塊、智能語音識別器、存儲器和顯示模塊，上述語音收集器與數模轉換音卡連接，數模轉換音卡與Z變換集成電路模塊連接，Z變換集成電路模塊與存儲器連接，智能語音識別器與存儲器連接，顯示模塊與存儲器連接。
7.根據權利要求6所述的語音輸入裝置，其特征在于上述智能語音識別器具有智能語言識別核心，存儲器包括字詞數據庫、語法數據庫、慣用法數據庫和文章領域、風格與內容信息數據庫，上述智能語言識別核心分別與字詞數據庫、語法數據庫、慣用法數據庫和文章領域、風格與內容信息數據庫連接。
全文摘要
本發明涉及一種計算機語音輸入技術，特別的涉及將說話語音轉變為相應文字的語音輸入方法及裝置。首要目的在于提供一種能夠降低語音識別錯誤率、并且具有智能識別功能的語音輸入方法，一種語音輸入方法，具有如下步驟1)由語音收集器收入用戶發出的語音；2)把收集到語音中的噪音過濾掉；3)根據語音-字詞數據庫辨認出相應文字；4)根據輸入的上下文對輸入的文字進行更正，以獲得正確的文字；5)將得到的全部輸入文字顯示出來或者輸入文件。本發明提供了一個高分辨率和高質量的語音輸入技術，使得計算機和其他電子器件的語音輸入的錯誤率大大降低，語音輸入文字成為一項可以普遍接受使用。
文檔編號G06F3/16GK101876887SQ20101018734
公開日2010年11月3日申請日期2010年7月26日優先權日2010年7月26日
發明者劉彤申請人:劉彤

完整全部(bu)詳細技術資料下(xia)載(zai)