智能掃描及朗讀文字的方法及其機器人裝置的制造方法

文檔序號：10594596閱讀：710來源：國知局

智能掃描及朗讀文字的方法及其機器人裝置的制造方法
【專利摘要】本發明一種智能掃描及朗讀的方法，至少包括以下步驟：獲取待朗讀的文字圖像信息；預處理所述的文字圖像信息；根據文字結構特征進行文字特征抽取；將抽取出的文字特征值與特征數據庫的文字信息進行比對，獲得的文字特征，識別文字圖像信息中的文字；動態比對所識別的文字，根據字詞數據庫的信息對比所識別的文字，進行拼寫檢查，獲得正確文字；將所獲得的正確的文字文本轉換為音韻序列并生成語音波形；播放所獲得的語音波形。本發明還提供一種智能掃描及朗讀的機器人裝置，可以智能掃描文字，準確的進行文字識別，同時根據識別結果將文字內容朗讀出來。適合眾多領域的使用者應用。
【專利說明】
智能掃描及朗讀文字的方法及其機器人裝置
技術領域
[0001]本發明涉及機器人技術領域，尤其涉及一種智能掃描及朗讀文字的方法及其機器人裝置。
【背景技術】
[0002]隨著機器人技術的迅速發展，機器人已被廣泛的應用在各種高危險、高負擔、高精細、反復性高的工作流程中。而近幾年來，為了很大程度上提高生活的方便性，家用機器人也已經越來越多的出現在人們的視線中，家用機器人是指為人類服務的特種機器人，主要從事于家庭服務，維護、保養、修理、運輸、清洗、監護等工作。目前隨著新型教育方式的興起，而家長在某些時候也力不從心，出現了主要針對兒童教育目的的家用機器人。目前一些普遍使用的用于輔助家長教育孩子的家用機器人主要側重在可以朗讀、唱歌以及講故事等，但是這些教育資源都是一些已經準備好或者到網絡上讀取的音頻文件，資源固化，功能單一，無法呈現太多活潑、多變化、生動的內容，因而教育資源受到限制，無法滿足兒童的求知欲，進而限制了智能教育的發展。
[0003]因此，基于現有的家用智能機器人在兒童教育方面功能比較單一，資源獲取受到極大的限制，不能靈活多變的改變教育資源，且受機器人系統內置資源或者網絡資源限制的諸多問題，急需一種具有多變性以及靈活性的智能機器人。

【發明內容】

[0004]本發明目的是提供一種智能掃描及朗讀文字的方法及其機器人裝置，將智能機器人從有限資源中解脫出來，隨時能根據使用者的需求提供語音服務。
[0005]本發明解決技術問題采用如下技術方案:一種智能掃描及朗讀的方法，至少包括以下步驟:
[0006]獲取待朗讀的文字圖像信息；
[0007]預處理所述的文字圖像信息；
[0008]根據文字結構特征進行文字特征抽取；
[0009]將抽取出的的文字特征值與特征數據庫的文字信息進行比對，獲得的文字特征，識別文字圖像信息中的文字；
[0010]動態比對所識別的文字，根據字詞數據庫的信息對比所識別的文字，進行拼寫檢查，獲得正確文字；
[0011]將所獲得的正確的文字文本轉換為音韻序列并生成語音波形；
[0012]播放所獲得的語音波形。
[0013]其中，所述的預處理所述的文字圖像信息包括以下步驟:
[0014]對獲取的文字圖像信息二值化；
[0015]根據噪聲特征對二值化的文字圖像進行去噪；
[0016]檢測并校正所述文字圖像的方向。
[0017]其中，根據文字結構特征進行文字特征抽取的步驟中的文字特征包括字的筆畫端點、交叉點數量、交叉點位置以及筆畫段特征。
[0018]其中，動態比對所識別的文字獲得文字文本的步驟包括:
[0019]根據識別的文字特征采用動態程序比對數學函數識別文字；
[0020]將識別后的文字與字詞數據庫的字群對比檢查；
[0021]若文字文本正確，則獲得文字文本；
[0022]若文字文本錯誤，則重新獲取文字圖像信息。
[0023]其中，將所獲得的文字文本轉換為音韻序列并生成語音波形是采用TTS技術，至少包括:
[0024]對獲得的文字文本進行語言學分析，確定句子的低層結構和每個字的音素的組成；
[0025]把處理好的文本所對應的單字或短語從語音合成庫中提取，把文字文本轉化成語音波形。
[0026]—種智能掃描及朗讀的機器人裝置，包括機器人及數據庫，至少還包括:
[0027]文字圖像信息獲取模塊，用于獲取待朗讀的文字圖像信息；
[0028]圖像預處理模塊，用于預處理文字圖像信息獲取模塊獲得的所述的文字圖像信息;
[0029]特征抽取模塊，用于根據數據庫中的文字結構特征抽取圖像預處理模塊處理的圖像中的文字特征；
[0030]文字識別模塊，用于根據數據庫中的信息比對所述特征抽取模塊所獲得的文字特征，并識別文字圖像信息中的文字；
[0031]拼寫檢查模塊，用于根據數據庫的信息動態比對所述文字識別模塊識別的文字，并獲得正確的文字文本；
[0032]語音生成模塊，用于將所述拼寫檢查模塊獲得的正確的文字文本轉換為音韻序列并生成語音波形；
[0033]語音播放模塊，用于播放語音生成模塊所生成的語音波形。
[0034]其中，圖像預處理模塊至少包括:
[0035]二值化處理單元，用于對文字圖像信息獲取模塊獲取的文字圖像信息二值化；
[0036]去噪單元，用于根據噪聲特征對所述二值化處理單元處理的文字圖像進行去噪；
[0037]文字檢測單元，用于檢測并校正所述去噪單元處理后的文字圖像的方向。
[0038]其中，所述的數據庫至少包括與所述特征抽取模塊連接的文字特征數據庫、與所述拼寫檢查模塊連接的字詞數據庫以及與所述語音生成模塊連接的語言分析數據庫和語音合成數據庫。
[0039]其中，所述的拼寫檢查模塊，至少包括:
[0040]文字確定單元，用于根據所述文字識別模塊識別的文字采用動態程序比對數學函數識別文字；
[0041]文字檢查單元，用于將所述文字確定單元識別后的文字與字詞數據庫的字群對比檢查；
[0042]文字文本單元，用于根據所述文字檢查單元獲得的文字得到正確的文字文本。
[0043]其中，所述語音生成模塊，至少包括:
[0044]語言分析單元，用于對所述文字文本單元獲得的文字文本進行語言學分析，確定句子的低層結構和每個字的音素的組成；
[0045]語音生成單元，用于把所述語言分析單元處理好的文本所對應的單字或短語從語音合成庫中提取，把文字文本轉化成語音波形。。
[0046]本發明具有如下有益效果:
[0047]1、本發明的智能機器人裝置能夠通過掃描文字，然后朗讀出來，使家用機器人的兒童教育功能具有多變和靈活性，使得教育資源多態化、多變化，很大程度上減小了教育資源的限制，實現靈活多變的教育方式；
[0048]2、本發明的裝置和方法也可使用到商務場景中，掃描商務文件的文字并朗讀出來；
[0049]3、本發明還可以提供給特殊人群使用，使其可以在無需人為幫助的情況下方便的了解各種場合以及資料的內容。
【附圖說明】
[0050]圖1為本發明的智能掃描及朗讀文字的方法流程圖；
[0051]圖2為本發明的智能掃描及朗讀文字的機器人裝置的結構框圖；
[0052]圖3為本發明的智能掃描及朗讀文字的方法的具體實現流程圖。
【具體實施方式】
[0053]下面結合實施例及附圖對本發明的技術方案作進一步闡述。本發明提出一種智能掃描以及朗讀文字的方法，參考圖1所示，至少包括以下步驟:獲取待朗讀的文字圖像信息；預處理所述的文字圖像信息;根據文字結構特征進行文字特征抽取;將抽取出的的文字特征值與特征數據庫的文字信息進行比對，獲得的文字特征，識別文字圖像信息中的文字;其中所述的文字特征包括字的筆畫端點、交叉點數量、交叉點位置以及筆畫段特征等，識別文字圖像信息中的文字；
[0054]動態比對所識別的文字，根據字詞數據庫的信息對比所識別的文字，進行拼寫檢查，獲得正確文字;將所獲得的正確的文字文本轉換為音韻序列并生成語音波形;播放所獲得的語音波形。
[0055]在本發明中，所述的預處理所述的文字圖像信息包括以下步驟:對獲取的文字圖像信息二值化;根據噪聲特征對二值化的文字圖像進行去噪;檢測并校正所述文字圖像的方向。
[0056]本發明所述的動態比對所識別的文字獲得文字文本的步驟包括:根據識別的文字特征采用動態程序比對數學函數識別文字；將識別后的文字與字詞數據庫的字群對比檢查;若文字文本正確，則獲得文字文本;若文字文本錯誤，則返回重新獲取文字圖像信息。
[0057]在本發明的實施例中，將所獲得的文字文本轉換為音韻序列并生成語音波形是采用TTS技術，至少包括:對獲得的文字文本進行語言學分析，確定句子的低層結構和每個字的音素的組成;把處理好的文本所對應的單字或短語從語音合成庫中提取，把文字文本轉化成語音波形。
[0058]在本發明中，還提供了一種智能掃描及朗讀的機器人裝置，參考圖2所示，包括數據庫以及機器人，還包括:文字圖像信息獲取模塊，用于獲取待朗讀的文字圖像信息；圖像預處理模塊，用于預處理文字圖像信息獲取模塊獲得的所述的文字圖像信息;特征抽取模塊，用于根據數據庫中的文字結構特征抽取圖像預處理模塊處理的圖像中的文字特征;文字識別模塊，用于根據數據庫中的信息比對所述特征抽取模塊所獲得的文字特征，并識別文字圖像信息中的文字;拼寫檢查模塊，用于根據數據庫的信息動態比對所述文字識別模塊識別的文字，并獲得正確的文字文本;語音生成模塊，用于將所述拼寫檢查模塊獲得的正確的文字文本轉換為音韻序列并生成語音波形；以及語音播放模塊，用于播放語音生成模塊所生成的語音波形。其中文字圖像信息獲取模塊可為攝像頭，即可為機器人自帶的攝像頭，也可以為在機器人的手部單獨安裝的攝像頭，在獲取文字圖像的時候，機器人根據使用者指令，用手部攝像頭近距離獲取;本發明的語音播放模塊可以為機器人自帶的揚聲器。
[0059]在本發明的裝置中，所述的圖像預處理模塊至少包括:二值化處理單元，用于對文字圖像信息獲取模塊獲取的文字圖像信息二值化;去噪單元，用于根據噪聲特征對所述二值化處理單元處理的文字圖像進行去噪；以及文字檢測單元，用于檢測并校正所述去噪單元處理后的文字圖像的方向。
[0060]在本發明的實施例中，所述的拼寫檢查模塊，至少包括:文字確定單元，用于根據所述文字識別模塊識別的文字采用動態程序比對數學函數識別文字;文字檢查單元，用于將所述文字確定單元識別后的文字與字詞數據庫的字群對比檢查;文字文本單元，用于根據所述文字檢查單元獲得的文字得到正確的文字文本。
[0061]在本發明的實施例中，所述語音生成模塊，至少包括:語言分析單元，用于對所述文字文本單元獲得的文字文本進行語言學分析，確定句子的低層結構和每個字的音素的組成;語音生成單元，用于把所述語言分析單元處理好的文本所對應的單字或短語從語音合成庫中提取，把文字文本轉化成可播放的語音波形。
[0062]在本發明的實施例中，機器人可包括控制部分，電源以及其他執行部分，這些部分的實現均可以采用現有技術來實現，因此不再進行贅述。而本發明中所述的數據庫至少包括與所述特征抽取模塊連接的文字特征數據庫、與所述拼寫檢查模塊連接的字詞數據庫以及與所述語音生成模塊連接的語言分析數據庫和語音合成數據庫，這些數據庫的建立也均可以采用現有的訓練方式來做出，并且這些數據的具體信息可為多語言內容，來滿足各語言的使用者使用，具體的過程在此不再贅述，而本發明的數據庫可以與所述機器人的數據庫一體設置。
[0063]下面結合圖3再對本發明方法以及機器人裝置的處理流程做進一步的說明，首先得到任意一篇待朗讀的文本，由機器人結構中的攝像頭拍攝獲得文本圖像信息，具體可通過攝像頭來掃描文字，進而按照上述方法的步驟采用光學字符識別(OCR)系統結合數據庫(圖中所示的為文字特征數據庫以及字詞數據)的信息進行文本識別并獲得文本文字，進一步再對文本文字進行檢查(如邏輯關系，文字順序等)，具體為先將獲得的彩色圖片進行二值化，使文本圖像只包含黑色的前景信息和白色的背景信息，同時根據征噪聲的特征對待識別圖像進行去噪處理，并進行圖像方向檢測，校正圖像方向；然后采用結構特征進行文字特征抽取，取得字的筆畫端點、交叉點的數量及位置，并以筆畫段為特征，配合特殊的比對方法，與文字特征數據庫來進行比對。文字特征數據庫內容包含所有欲識別的字集文字，根據與輸入文字一樣的特征抽取方法所得的特征群組。根據文字的特征值，選用動態程序比對(Dynamic Programming，DP)數學函數，識別出文字。再將比對后的識別文字與字詞數據庫中可能的相似候選字群中進行對比，根據前后的識別文字找出最合乎邏輯的詞，也就是做一個拼寫檢查，最后得出文字文本。如果檢查到所獲得的文本文字錯誤則返回圖像獲取步驟，重新獲得文本圖像信息，在本實施例中，也可以提示文本錯誤，由使用者確定是否要重新獲得文本圖像。
[0064]如果所獲得的文本文字正確，則按照上述方法中的步驟進行文本分析、音韻合成，再生成語音波形，最終由機器人的揚聲器朗讀給使用者。其中文本與音韻的轉換是采用TTS技術先將文字序列轉換成音韻序列，再由系統根據音韻序列生成語音波形，最后通過揚聲器發出聲音。而在轉換過程中要對輸入文本進行語言學分析，逐句進行詞匯的、語法的和語義的分析，以確定句子的低層結構和每個字的音素的組成，包括文本的斷句、字詞切分、多音字的處理、數字的處理、縮略語的處理等，而后把處理好的文字文本所對應的單字或短語從數據庫中的語音合成庫中提取，把語言描述轉化成語音波形。
[0065]綜上，本發明的可以實現機器人裝置可以智能掃描文字，準確的進行文字識別，同時根據識別結果將文字內容朗讀出來。使家用機器人的兒童教育功能具有多變和靈活性，使得教育資源多態化、多變化，很大程度上減小了教育資源的限制，實現靈活多變的教育方式；另外本發明可以使用到商務場景中，掃描商務文件的文字并朗讀出來；也給特殊人群(如視力不佳的老人或者具有其他視力以及閱讀障礙的人)使用，使其可以在無需人為幫助的情況下方便的了解各種場合以及資料的內容。
[0066]以上實施例的先后順序僅為便于描述，不代表實施例的優劣。
[0067]最后應說明的是:以上實施例僅用以說明本發明的技術方案，而非對其限制;盡管參照前述實施例對本發明進行了詳細的說明，本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改，或者對其中部分技術特征進行等同替換；而這些修改或者替換，并不使相應技術方案的本質脫離本發明各實施例技術方案的精神和范圍。
【主權項】
1.一種智能掃描及朗讀的方法，其特征在于，至少包括以下步驟: 獲取待朗讀的文字圖像信息；預處理所述的文字圖像信息；根據文字結構特征進行文字特征抽取；將抽取出的的文字特征值與特征數據庫的文字信息進行比對，獲得的文字特征，識別文字圖像信息中的文字；動態比對所識別的文字，根據字詞數據庫的信息對比所識別的文字，進行拼寫檢查，獲得正確文字；將所獲得的正確的文字文本轉換為音韻序列并生成語音波形；播放所獲得的語音波形。2.根據權利要求1所述的智能掃描及朗讀的方法，其特征在于;所述的預處理所述的文字圖像信息包括以下步驟: 對獲取的文字圖像信息二值化；根據噪聲特征對二值化的文字圖像進行去噪；檢測并校正所述文字圖像的方向。3.根據權利要求1所述的智能掃描及朗讀的方法，其特征在于，根據文字結構特征進行文字特征抽取的步驟中的文字特征包括字的筆畫端點、交叉點數量、交叉點位置以及筆畫段特征。4.根據權利要求1或3所述的智能掃描及朗讀的方法，其特征在于，動態比對所識別的文字獲得文字文本的步驟包括: 根據識別的文字特征采用動態程序比對數學函數識別文字；將識別后的文字與字詞數據庫的字群對比檢查；若文字文本正確，則獲得文字文本；若文字文本錯誤，則重新獲取文字圖像信息。5.根據權利要求1所述的智能掃描及朗讀的方法，其特征在于，將所獲得的文字文本轉換為音韻序列并生成語音波形是采用TTS技術，至少包括: 對獲得的文字文本進行語言學分析，確定句子的低層結構和每個字的音素的組成；把處理好的文本所對應的單字或短語從語音合成庫中提取，把文字文本轉化成語音波形。6.—種智能掃描及朗讀的機器人裝置，包括機器人及數據庫，其特征在于，至少還包括: 文字圖像信息獲取模塊，用于獲取待朗讀的文字圖像信息；圖像預處理模塊，用于預處理文字圖像信息獲取模塊獲得的所述的文字圖像信息；特征抽取模塊，用于根據數據庫中的文字結構特征抽取圖像預處理模塊處理的圖像中的文字特征；文字識別模塊，用于根據數據庫中的信息比對所述特征抽取模塊所獲得的文字特征，并識別文字圖像信息中的文字；拼寫檢查模塊，用于根據數據庫的信息動態比對所述文字識別模塊識別的文字，并獲得正確的文字文本；語音生成模塊，用于將所述拼寫檢查模塊獲得的正確的文字文本轉換為音韻序列并生成語音波形；語音播放模塊，用于播放語音生成模塊所生成的語音波形。7.根據權利要求6所述的智能掃描及朗讀的方法，其特征在于；圖像預處理模塊至少包括: 二值化處理單元，用于對文字圖像信息獲取模塊獲取的文字圖像信息二值化；去噪單元，用于根據噪聲特征對所述二值化處理單元處理的文字圖像進行去噪；文字檢測單元，用于檢測并校正所述去噪單元處理后的文字圖像的方向。8.根據權利要求6所述的智能掃描及朗讀的方法，其特征在于，所述的數據庫至少包括與所述特征抽取模塊連接的文字特征數據庫、與所述拼寫檢查模塊連接的字詞數據庫以及與所述語音生成模塊連接的語言分析數據庫和語音合成數據庫。9.根據權利要求8所述的智能掃描及朗讀的方法，其特征在于，所述的拼寫檢查模塊，至少包括: 文字確定單元，用于根據所述文字識別模塊識別的文字采用動態程序比對數學函數識別文字；文字檢查單元，用于將所述文字確定單元識別后的文字與字詞數據庫的字群對比檢查；文字文本單元，用于根據所述文字檢查單元獲得的文字得到正確的文字文本。10.根據權利要求8所述的智能掃描及朗讀的方法，其特征在于，所述語音生成模塊，至少包括: 語言分析單元，用于對所述文字文本單元獲得的文字文本進行語言學分析，確定句子的低層結構和每個字的音素的組成；語音生成單元，用于把所述語言分析單元處理好的文本所對應的單字或短語從語音合成庫中提取，把文字文本轉化成語音波形。
【文檔編號】G10L13/08GK105956588SQ201610250797
【公開日】2016年9月21日
【申請日】2016年4月21日
【發明人】易華鵬
【申請人】深圳前海勇藝達機器人有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：易華鵬;
技術所有人：深圳前海勇藝達機器人有限公司;
我是此專利的發明人

上一篇：一種圖像物體水平角度校正的方法
上一篇：一種基于形狀約束的膝關節磁共振圖像序列半月板自動提取方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

智能機器人相關技術

智能機器人小船相關技術

人工智能機器人小船相關技術

中文字幕无码日韩视频无码三区

智能掃描及朗讀文字的方法及其機器人裝置的制造方法