一種信息智能采集方法
【專利說明】
【技術領域】
[0001 ]本發明涉及一種信息智能采集方法。
【【背景技術】】
[0002]在很多領域,需要對人攜帶的物品,含各類卡(含磁卡、接觸類芯片卡、非接觸類芯片卡)、證件、名片、電子存儲設備、移動手機等智能設備等信息進行采集并加以應用。這類信息的記錄方式,一方面采集內容會印刷在卡面(如名片卡),另一方面采集內容會分布在芯片內(如我國居民身份證、銀行磁卡、門禁卡),同時還有部分以文件方式存儲在U盤、數碼相機、智能手機等設備中。
[0003]現有的采集工具往往不具有多種功能,導致有些物件的信息無法采集;另外,現有的采集方法效率較低,容易重復采集物件。
【
【發明內容】
】
[0004]為了克服現有技術的不足,本發明提供了一種信息智能采集方法,以提高信息采集的效率。
[0005]—種信息智能采集方法,包括如下步驟:
[0006]S1、采集計算機生成以事件或目的為依據建立的采集任務;
[0007]S2、在所述采集任務中,采集機具對相關的某個人員的隨身的物件逐一進行采集得到米集?目息;
[0008]S3、所述采集機具依次對所述采集任務中所有的相關人員的隨身的物件進行采集得到米集?目息;
[0009]S4、利用智能識別引擎對所述采集信息進行識別、分析、加工得到信息內容;S5、將采集到信息、信息內容存儲到數據庫服務器。
[0010]在一個實施例中,
[0011]在所述步驟S5中:
[0012]將所述采集到的信息按照菊花鏈式數據結構進行存儲:
[0013]所述菊花鏈式數據結構的第一級節點存儲所述采集任務ID,
[0014]所述菊花鏈式數據結構的第二級節點存儲人員ID,
[0015]所述菊花鏈式數據結構的第三級節點存儲物件類型信息,
[0016]所述菊花鏈式數據結構的第四級節點存儲物件記載內容。
[0017]在一個實施例中,
[0018]在所述菊花鏈式數據結構的每一級節點上均存儲有采集任務ID和人員ID。
[0019]在一個實施例中,
[0020]所述采集機具通過如下步驟對隨身的物件進行采集:
[0021]Al、判斷所述物件是否含有射頻芯片,若有則所述采集機具通過射頻讀取模塊讀取所述射頻芯片信息,否則執行步驟A2;
[0022]A2、判斷所述物件是否具有磁信息,若有則所述采集機具通過磁記錄讀取模塊讀取所述物件的磁信息,否則執行步驟A3;
[0023]A3、判斷所述物件是否含有接觸式芯片,若有則所述采集機具通過芯片讀取模塊讀取所述接觸式芯片中的信息,否則執行步驟A4;
[0024]A4、所述采集機具通過光學采集模塊對所述物件進行拍照,并對獲得的照片進行文字識別得到對應的信息。
[0025]在一個實施例中,
[0026]所述采集機具包括光學采集模塊、指紋采集模塊、磁記錄讀取模塊、芯片讀取模塊、射頻讀取模塊、二代身份證讀取模塊、國際民航組織機讀旅行證件模塊、以太網絡接口模塊、藍牙模塊WIFI模塊、和USB接口模塊中、USB集線器,所述光學采集模塊、指紋采集模塊、磁記錄讀取模塊、芯片讀取模塊、射頻讀取模塊、二代身份證讀取模塊、國際民航組織機讀旅行證件模塊、以太網絡接口模塊、藍牙模塊和USB接口模塊連接在所述USB集線器上。
[0027]在一個實施例中,
[0028]針對采集信息中的電子文件:將電子文件類型、名稱和內容存入關鍵信息數據庫中。
[0029]在一個實施例中,
[0030]在所述步驟S4中:
[0031]針對所述采集信息中的照片:
[0032]對于格式固定的照片進行模板識別:將照片分割為多個識別區域,每個識別區域對應一個語義,利用OCR識別分別對每個識別區域進行識別得到信息內容,將信息內容賦予對應的語義;
[0033]對于格式不固定的照片:通過OCR識別得到信息內容;
[0034]對于照片中的條碼和二維碼進行提取和識別得到信息內容:
[0035]從所述信息內容中的文字利用正則表達或語義分析算法提取實體信息,所述實體信息包括號碼、名稱和地址。
[0036]在一個實施例中,
[0037]當所述物件通過光學采集模塊進行采集時,存儲到所述數據庫服務器的數據包括:物件的圖片、從所述物件中提取的文字、從所述提取的文字中獲取的格式化內容、從所述提取的文字中獲取的線索集合。
[0038]在一個實施例中,
[0039]當所述物件包含電磁卡片時,存儲到所述數據庫服務器的數據包括:卡片編號、卡片中存儲的內容、從所述存儲的內容中獲取的格式化內容、從所述存儲的內容中獲取的線索集合。
[0040]在一個實施例中,
[0041]當所述物件包含電子存儲器件時,存儲到所述數據庫服務器的數據包括:存儲器件的編號、存儲文件目錄結構、文件、從所述文件中獲取的線索集合。
[0042]本發明的有益效果是:
[0043]利用電、磁、光學技術自動提取信息內容替代人工錄入,提高采集效率,避免人工錄入差錯,提升采集質量。利用芯片感知、磁條讀取和光學拍照,將采集內容進行快速、準確米集。
[0044]整個采集過程利用工具集成,一體化采集各類卡、證、名片、文檔,降低采集工具數量,簡化采集難度。針對采集卡證的多樣性帶來的采集方式多樣性進行整合,形成一站式采集和全集成采集特征。即:所有卡證名片一站式采集完成,各類卡證的采集方式集成到一臺設備上,避免采集工具的凌亂。
[0045]流程化采集:根據通用采集場景,設計采集流程,定制采集軟件,利用軟件指引,流程化采集各類卡、證、名片、文檔。通過軟件界面,形成“一事一檔,一人一采,逐證(卡)采集,邊采邊拍,至少兩面”的采集流程,采集員根據流程采集,就能采全采盡需要采集的信息,待采集的卡證再多也不容易出差錯。
[0046]菊花鏈式信息結構。采集的各類卡證名片文檔信息雖然結構、種類繁多,通過本方案設計,以采集事項(緣由)為起點,以人員為核心,以卡證內容為主體,并同步拍攝照片存留,形成菊花鏈式采集信息結構。基于此結構,通過信息化處理逐層提取卡證內容,逐步結構化標注內容語義。保證采集內容語義明確、方便后續深度應用。
[0047]多維度采集。在采集內容上,不僅采集卡證名片文檔內容,還采集對能夠標識被采集物品唯一性的內置芯片ID,通過拍攝被采集物品正、反面外觀照片作為實物證據。
[0048]采集內容格式化、語義化。針對采集內容,按照不同的卡證存儲方式,將ID、卡號、賬號、卡名稱、姓名、日期以及其他信息按照語義格式化。這樣采集信息更加易用,不同的卡證信息可以基于語義進行分析。
[0049]智能識別分析處理。在對采集信息的分析加工上,分別從三個層面采取智能采集識別分析方法,一是針對圖像在傳統的OCR識別基礎上,建立可擴充的模板庫,進行定制化模板辦法,如名片模板、身份證模板、社保卡模板等;二是針對存儲型文件類信息,建立重點特征庫,含讀取文件類型、名稱及內容關鍵智能庫,實現海量存儲信息的重點讀取;三是定義不同類型的正則式等語法庫,實現針對被采集信息的定制化實體屬性智能分析提取。
【【附圖說明】】
[0050]圖1是本發明一種實施例的信息智能采集系統示意圖;
[0051 ]圖2是本發明一種實施例的信息智能采集方法流程圖;
[0052]圖3是本發明一種實施例的“菊花鏈式數據結構”示意圖。
【【具體實施方式】】
[0053]以下對發明的較佳實施例作進一步詳細說明。
[0054]如圖1所示,一種信息智能采集系統,包括采集機具、采集主機、數據庫服務器、Web應用服務器和識別引擎服務器。采集機具用于對相關的人員的隨身物件進行采集信息。采集機具可以包括光學采集模塊(例如相機、攝像機)、指紋采集模塊、磁記錄讀取模塊、芯片(ID卡、接觸式IC卡、CPU卡、二代身份證)讀取模塊、射頻讀取模塊、二代身份證讀取模塊、國際民航組織機讀旅行證件模塊、以太網絡接口模塊、藍牙模塊WIFI模塊和USB接口模塊中的至少一者,上述模塊可以根據具體應用和需要,選擇任意的組合。
[0055]采集機具可以是非智能前端架構,采集機具內部僅集成光學采集模塊、智能卡讀取模塊、藍牙讀取模塊等各類傳感器設備,設備內部不集成CPU及存儲,該采集設備不能獨立工作,需連接前端計算機,計算機安裝相關驅動軟件后,作為計算機感知外部設備進行工作,相關采集系統架構采用B/S架構體系,采集軟件在計算機瀏覽器中以網頁運行,前端計算機不存儲采集數據。
[0056]采集機具可以是I型智能前端架構,前端設備內部在集成光學采集模塊、智能卡讀取模塊、藍牙讀取模塊等各類傳感器設備基礎上,設備內部集成I型智能平臺,采用ARM架構CHJ及存儲,軟件系統采用Android平臺,設備可以獨立工作,并內置SQLite等移動端輕型數據庫,能存儲數據。感知設備由內置智能平臺進行驅動,智能平臺通過數據交換方式和前端計算機進行通訊。
[0057]采集機具可以是II型全智能前端架構,前端設備內部在集成光學采集模塊、智能卡讀取模塊、藍牙讀取模塊等各類傳感器設備基礎上,設備內部集成II型智能平臺,采用Intel X86或X64架構CPU及存儲,軟件系統采用Windows平臺,設備可以獨立工作,并能存儲數據。感知設備由內置智能平臺進行驅動,智能平臺通過數據交換方式和前端計算機進行通訊。同I型智能平臺相比,具有以下優勢:
[0058]內置Mysql等完整的數據庫,實現數據的存儲;
[0059]具備前端智能分析引擎,實現對前端采集數據的圖像文字識別引擎、正則語義分析引擎,以及對USB通用存儲設備的內容檢索分析引擎等;
[0060]同主機之間以網絡及安全數據兩種模式進行通訊,網絡模式,外部主機可通過網絡直接訪問設備數據庫及設備管理平臺;安全數據模式,外部主機只可訪問設備指定的數據交換區域,本模式屏蔽了被采集設備和外部主機之間網絡接通,確保主