一種數據規范化處理方法和系統的制作方法
【技術領域】
[0001] 本發明涉及計算機排版技術領域,尤其涉及一種數據規范化處理方法和系統。
【背景技術】
[0002] 目前,出版社把電子文件印刷成圖書或刊物之前需要專業的編輯人員進行排版, 包括對文字、圖片以及表格等進行排版。對于文字類的文檔進行處理時,對于文檔中的漢字 需要使用漢字字模庫進行處理,但是對于文檔中除了漢字之外的數據還沒有規范化的處理 系統或數據庫進行處理,特別是教材、教輔、科技圖書等教科類圖書常會出現大量的數據內 容,往往還會有單位包含特殊符號的內容。
[0003] 編輯人員在處理教輔或者科技類圖書時,經常會遇到圖書中存在大量的數據內 容,在對漢字進行規范化處理后,還需要對這些數據內容進行規范化。編輯人員往往需要投 入大量的時間和精力對這些數據內容進行逐一處理,其工作量大,周期長。
[0004] 根據上述,采用人工方式對文檔中的數據進行規范化處理的過程中存在如下缺 點:人工手動處理數據費時費力,需編輯人員對文檔逐行進行肉眼觀察,導致處理速度過 慢,導致出版周期過長,直接降低了出版效率。同時編輯人員人工處理的速度慢,對于內容 較多、篇幅較長的文檔需要多個編輯人員進行處理,需耗費大量的人力資源,導致企業處理 此類文檔的成本升高。最重要的是,采用人工方法對文檔中數據內容進行規范化處理還存 在較高的出錯率,很有可能會由于編輯人員的疏忽出現漏掉未處理的數據。因此,如何提高 此類出版物的數據處理能力,減少編輯的工作量,快速地對文檔數據進行規范化,成為當前 出版行業的重要問題。
【發明內容】
[0005] (一)要解決的技術問題
[0006] 針對上述缺陷,本發明要解決的技術問是如何快速對文檔中的數據進行規范化處 理,節省人力。
[0007] (二)技術方案
[0008] 為解決上述問題,本發明提供了本發明提供了一種數據規范化處理方法,包括:
[0009] S1、根據文檔類型創建關鍵詞以及關鍵詞類型;
[0010] S2、對文檔中的數據內容進行搜索,并對獲取的數據內容進行存儲;
[0011] S3、對數據內容的位置進行定位,并對文檔中與數據內容相關聯的上下文進行提 取,得到上下文內容;
[0012] S4、根據關鍵詞類型對上下文內容進行規范化處理。
[0013] 進一步地,步驟Sl根據文檔類型創建關鍵詞以及關鍵詞類型之前還包括對文檔 進行格式化處理,生成符合W3C標準的XML格式文件。
[0014] 進一步地,所述文檔類型的確定具體包括:基于文檔的語境對文檔進行分類,確定 文檔類型。
[0015] 進一步地,所述關鍵詞類型包括單位數據類型和財務數據類型。
[0016] 進一步地,對文檔中的數據內容進行搜索具體包括:根據API函數使用正則表達 式獲取文檔中的所有數據內容。
[0017] 進一步地,所述對文檔中與數據內容相關聯的上下文進行提取具體包括:
[0018] 根據數據內容的當前位置向前提取前一個分詞的位置和內容,向后提取后一個分 詞的位置和內容。
[0019] 進一步地,在步驟S3之后、步驟S4之前還包括:建立關鍵詞類型與規范化處理模 塊之間的映射關系,單位數據類型的上下文與單位數據處理模塊相關聯,財務數據類型的 上下文與財務數據處理模塊相關聯。
[0020] 進一步地,步驟S4進行規范化處理具體包括:
[0021] 根據關鍵詞類型對上下文內容進行識別,并根據識別結果選擇相關聯的處理模塊 進行規范化處理。
[0022] 為解決上述技術問題,本發明還提供了一種數據規范化處理系統,包括:
[0023] 分類模塊,用于根據文檔類型創建關鍵詞以及關鍵詞類型;
[0024] 數據查詢模塊,用于對文檔中的數據內容進行搜索,并對獲取的數據內容進行存 儲;
[0025] 上下文提取模塊,用于對數據內容的位置進行定位,并對文檔中與數據內容相關 聯的上下文進行提取,得到上下文內容;
[0026] 處理模塊,用于根據關鍵詞類型對上下文內容進行規范化處理。
[0027] 進一步地,還包括映射關系模塊,用于建立關鍵詞類型與規范化處理模塊之間的 映射關系,單位數據類型的上下文與單位數據處理模塊相關聯,財務數據類型的上下文與 財務數據處理模塊相關聯。
[0028] 進一步地,還包括識別模塊,用于根據分類模塊得到的關鍵詞類型對上下文提取 模塊得到的上下文內容進行識別,并根據識別結果選擇相關聯的處理模塊進行處理。
[0029] 進一步地,所述處理模塊包括單位數據處理模塊和財務數據處理模塊,單位數據 處理模塊用于對單位數據類型的內容進行處理,財務數據處理模塊用于對財務數據類型的 內容進行處理。
[0030] (三)有益效果
[0031] 本發明提供了一種數據規范化處理方法和系統,其中處理方法包括:根據文檔類 型創建關鍵詞以及關鍵詞類型;對文檔中的數據內容進行搜索,并對獲取的數據內容進行 存儲;對數據內容的位置進行定位,并對文檔中與數據內容相關聯的上下文進行提取,得到 上下文內容;根據關鍵詞類型對上下文內容進行規范化處理。采用本發明所述的方法,解決 了現有技術中人為對數據進行規范化處理效率低下的問題,從而大大提高編輯處理文檔的 效率,在節約成本的同時保證較高的準確率。
【附圖說明】
[0032] 圖1為本發明實施例一提供的一種數據規范化處理方法的步驟流程圖;
[0033] 圖2為本發明實施例一中以處理Word文檔為例的最優方案的流程圖;
[0034] 圖3為本發明實施例二中提供的一種數據規范化處理系統的組成示意圖。
【具體實施方式】
[0035] 下面結合附圖和實施例,對本發明的【具體實施方式】作進一步詳細描述。以下實施 例用于說明本發明,但不用來限制本發明的范圍。
[0036] 實施例一
[0037] 本發明實施例一提供了一種數據規范化處理方法,步驟流程圖如圖1所示,具體 包括以下步驟:
[0038] 步驟S1、根據文檔類型創建關鍵詞以及關鍵詞類型。
[0039] 步驟S2、對文檔中的數據內容進行搜索,并對獲取的數據內容進行存儲。
[0040] 步驟S3、對數據內容的位置進行定位,并對文檔中與數據內容相關聯的上下文進 行提取,得到上下文內容。
[0041] 步驟S4、根據關鍵詞類型對上下文內容進行規范化處理。
[0042] 本實施例提供的數據規范化處理方法,通過對數據內容的上下文進行提取以及對 文檔類型進行分類的處理,從而快速實現文檔中數據內容的規范化處理,解決現有技術中 人工處理低效率、出錯率高的問題。
[0043] 進一步地,步驟Sl中根據文檔類型創建關鍵詞以及關鍵詞分類庫之前還包括對 文檔進行格式化處理,生成符合W3C標準的XML格式文件。
[0044] 進一步地,步驟Sl中文檔類型的確定具體包括:基于文檔的語境對文檔進行分 類,確定文檔類型。
[0045] 進一步地,步驟Sl中關鍵詞類型包括單位數據類型和財務數據類型。
[0046] 進一步地,步驟S2中對文檔中的數據內容進行搜索具體包括:根據API函數使用 正則表達式獲取文檔中的所有數據內容。
[0047] 進一步地,步驟S3中對文檔中與數據內容相關聯的上下文進行提取具體包括:
[0048] 根據數據內容的當前位置向前提取前一個分詞的位置和內容,向后提取后一個分 詞的位置和內容。
[0049] 進一步地,在步驟S3之后、步驟S4之前還包括:
[0050] 步驟S3'、建立關鍵詞類型與規范化處理模塊之間的映射關系,單位數據類型的上 下文與單位數據處理模塊相關聯,財務數據類型的上下文與財務數據處理模塊相關聯。
[0051 ] 進一步地,步驟S4進行規范化處理具體包括:
[0052] 根據關鍵詞類型對上下文內容進行識別,并根據識別結果選擇相關聯的處理模塊 進行規范化處理。
[0053] 基于上述,本實施例中以最為常見的Word文檔為舉例文檔對象,具體以單位數據 規范化以及財務數據規范化為具體實施例,上述步驟可細化為下列步驟:
[0054] 步驟101、首先定義關鍵詞并對關鍵詞進行分類確定不同的關鍵詞類型,即通過分 類模塊采用XML對文檔類型進行區分,對關鍵詞以及關鍵詞類型進行定義,具體定義內容 如下:
[0055]
[0056]
[0057] 上述Type節點:定義了關鍵詞的類型,name屬性定義了分類的名稱。
[0058] 〈type name = 〃unit〃>定義了規范化的單位數據類型,當檢索上下文中含有kg, g等單位時對數據內容進行處理。
[0059] 〈type name = "finance"〉定義了規范化的財務數據類型,當檢索上下文中含有 人民幣或者美元符號的時候進行處理。
[0060] Key節點:定義了關鍵詞的名稱,例如本實施例中定義的單位數據類關鍵詞有kg, g,km,m,cm ;定義的財務數據類型關鍵詞有美元符號$和人民幣符號Y。
[0061] 需要說明的是,本實施例中只是以單位數據和財務數據作為數據內容的兩種類型 為例,定義的兩類關鍵詞也只是舉例說明,但是并不表明對本實施例處理方法中數據類型 的限定。
[0062] 步驟201、創建數據查詢模塊,對文檔中的數據內容進行搜索,并對獲取的數據內 容進行存儲。本實例中處理Word文檔時采用Office提供的API函數,即Find函數,使用 正則表達式可以獲取文檔中的