專利名稱:華語自動分詞注音新技術的制作方法
技術領域:
智能化的計算機漢語信息處理技術;現代漢語自動分詞技術和自動注音技術的有機結合。
二、國內外對現代漢語自動注音研究的現狀1、中國的漢語注音讀物有兩大類一是中國大陸的漢語拼音注音讀物,主要是小學低年級教材和課外讀物;學齡前兒童注音讀物和成人掃盲注音讀物;供外國人閱讀和學習漢語漢字的注音讀物;在中國的外國留學生學習漢語漢字的注音教材。二是中國臺灣使用注音字母的注音讀物,應用范圍同大陸相當。目前注音讀物的創作、編輯和出版,仍然以人工注音,鉛排印刷為主要技術手段。近年一些注音讀物的激光電子排版印刷,同樣以人工注音為前提。
2、國內少數人進行的計算機自動注音研究,停留在按字為單位進行注音的階段,注音準確率低,不按詞連寫,不符合我國注音讀物的規范。國內外尚未發現本發明以外的有效的自動分詞注音研究成果。
三、本發明的目的使用先進的計算機技術,通過智能化手段,實現快速的、準確度高的現代漢語文本自動分詞注音,取代效率低下、錯誤繁多的傳統的人工注音。把現代漢語注音技術推向現代化、標準化和規范化。
使用目前國內外各種漢字系統所生成的漢字機讀文章,不用經過人工分詞,通過本技術處理后立即自動注音,變為分詞注音的、漢字詞和拼音詞兩相對照的注音文章,注音符合國家的“漢語拼音”規范,分詞符合國家的“漢語拼音正詞法”規范。自動分詞注音的準確率達到98%。經過人工少量校正,符合出版要求。
使用計算機技術實現現代漢語文本的自動分詞和自動注音,有利于提高我國注音讀物的質量,克服過去因人而異的注音混亂現象,實現注音讀物的規范化,大大加快注音讀物的出版周期。利于人們學習漢語漢字和掌握普通話,促進發展我國民族共同語,提高人們的文化質素。同時有利于外國人學習漢字漢語,促進中外文化交流。
四、本發明的內容1、“現代漢語和漢語拼音相對應的分詞規則”。
在研究現代漢語詞匯的相關關系和《漢語拼音正詞法基本規則》的基礎上,研究確定了本規則。本規則由詞性相關規則;綴加成分(前加成分和后加成分)處理規則;前后交連結構判定規則;同形異音詞處理規則等部分構成。本規則是實現計算機現代漢語自動分詞和自動注音技術的可靠基礎。
2、多屬性注音系統詞匯庫(漢字詞、拼音詞、詞匯屬性、交連結構知識多位一體)和用戶臨時干預詞庫。
從“漢語拼音正詞法基本規則”出發,對8萬條現代漢語常用詞和次常用詞進行注音和標注詞性;從現代漢語自動分詞實踐中,總結出語詞交連結構的正確劃分規律,總結出語詞前加成分和后加成分的分詞連寫規則,拼音大寫小寫規則等,然后根據計算機科學檢索的要求,建成多屬性的注音詞匯庫。建造這個詞匯庫,是正確分詞注音的重要依據。用戶臨時干預詞庫的作用是提高罕用語詞注音的準確性。
3、“計算機華語自動分詞注音技術”。
在漢語語詞規律研究的基礎上,研究確立了本技術。本技術包括現代漢語語詞減字切分法;多屬性詞庫(包括漢字詞庫和拼音詞庫)檢索法;現代漢語交連結構正確判斷法;漢字詞、拼音詞自動對應注音技術等。在本技術的指導下,研制成功了“華語自動分詞注音系統”(又稱“華語自動注音卡”。該系統能對現代漢語的計算機機讀文本,按照國家的漢語拼音正詞法的分詞連寫要求,按照國家漢語拼音規范(包括大寫小寫、標調法、輕聲和兒化、隔音符號等)進行正確分詞和正確注音,分詞和注音的正確率達到98%以上。
4、“華語注音結果文本輸出排版印刷技術”。
本技術包括注音結果文本的修改和計算機排版方法,注音結果文本在行式打印機上的格式打印輸出,以及通過代碼轉換同先進的計算機激光照排系統相接口,實現注音結果文本的激光照排輸出,進行注音讀物的高精度膠版印刷。
上述四項內容的結合,構成了“華語自動分詞注音新技術”。
五、本發明的優點及效果1、把現代漢語文章轉換為規范的拼音-漢字兩相對照的注音文章,不需人工事先對漢語文章做分詞處理、辨音標調處理,真正實現現代漢語文章注音的自動化、智能化;
2、采用本技術對現代漢語機讀文本進行自動注音,可以大大提高注音的工作效率,使用普通的微型計算機,自動注音的速度可達每分鐘1000個漢字以上,比人工注音高出許多倍;
3、采用本技術獲得的注音結果的準確度高,規范性和一致性好。人工注音的最大缺點是一致性和規范性差,不同作者的注音差異性大,讀者難以適從。
4、改變注音讀物的寫作、編輯、排版傳統方式,改變注音讀物出版的舊工藝,縮短注音讀物出版周期,減輕出版人員腦力、體力負擔;促進注音讀物出版的現代化、標準化、規范化;
5、本發明使注音讀物的創作和編輯出版變得非常容易,更方便地向人們提供注音讀物,幫助人們更快地掌握文化科學知識,尤其是學好普通話和漢語拼音,促進發展我國民族共同語。有利于外國人學習漢語。
現代漢語文本自動注音前后的對照舉例原漢語文本我攀登過峰巒雄偉的泰山,游覽過紅葉似火的香山,卻從沒看見過桂林這一帶的山。桂林的山真奇啊,一座座拔地而起,各不相連,象老人,象巨象,象駱駝,齊峰羅列,形態萬千;桂林的山真秀啊,象翠綠的屏障,象新生的竹筍,色彩明麗,倒映水中;桂林的山真險啊,危峰兀立,怪石嶙峋,好象一不小心就會栽倒下來。
經過自動分詞注音后的注音文本
權利要求
“華語自動分詞注音系統”具有以下技術特征1、待注音的漢語機讀文本,漢字與漢字之間不必留空,無須人工事先作分詞安排,分詞和注音由系統自動完成。
2.形成的注音文本,能夠同注音前的原文文本的起行、段落格式保持一致。
3.注音過程的特色是先整行顯示拼音,后整行顯示漢字。構成整行拼音和整行漢字快速地兩相對照。不是一個詞一個詞地顯示拼音和顯示漢字。
4.形成注音文本的漢字詞,不管是雙音節詞或多音節詞,都作為一個完整的詞串連結在一起,詞與詞之間留空,而字與字之間不留空。即漢字詞作為一個整體同拼音詞相對照。
5.形成注音文本的拼音串,它的分詞連寫法,聲母韻母寫法,標調法,語詞首字母大寫法,隔音符號,輕聲和兒化等,符合漢語拼音規范和1988年國家頒布的“漢語拼音正詞法”規范。
6.具有自動區別多音字的能力,無須人工干預,能夠辨別例如“龜裂、烏龜、龜茲”中的“龜”字的不同讀音,正確注為龜裂jǖnliè 烏龜wūguī 龜茲qiūcí
7.形成的注音文本的拼音字符是半角字符,它是本注音系統特有的,它的寬度是一個漢字寬度的二分之一。不同于國標字符集里的拼音全角符。(見附圖
中的注音文本中的拼音字符)請求保護具有上述綜合特征的本技術發明權。
全文摘要
“華語自動分詞注音新技術”是智能化的計算機漢語信息處理技術、現代漢語自動分詞技術和自動注音技術的有機結合。使用本技術研制成功的“華語自動分詞注音系統”,能夠直接對各種符合漢字交換碼標準的漢字系統生成的漢字機讀文本,進行自動注音,生成規范的、以詞為單位的現代漢語注音文章,從而方便獲得注音讀物。不需人工事先對需要注音的漢字文章的語詞作辨音和分詞處理,實現現代漢語注音的自動化。本技術改變注音讀物出版舊工藝,改變注音讀物的生成方法,減輕出版人員腦力、體力負擔,大大縮短注音讀物出版周期,促進實現現代漢語注音讀物出版的現代化、標準化、規范化。
文檔編號G06F3/09GK1052960SQ8910943
公開日1991年7月10日 申請日期1989年12月23日 優先權日1989年12月23日
發明者方暉, 方世增, 周有光 申請人:方暉