中文字幕无码日韩视频无码三区

文件批量處理及調度的方法

文檔序號:6639910閱讀:252來源:國(guo)知(zhi)局
文件批量處理及調度的方法
【專利摘要】本發明公開了一種文件批量處理及調度的方法,包括:接收下傳平臺下發的外部數據文件;加載所述外部數據文件到數據庫。本發明的文件批量處理及調度的方法使用狀態驅動的方法對外部數據文件的各處理階段進行調度,達到高效并發、資源可控的處理文件的目的。并且為文件的每個處理步驟設定狀態,并在數據庫中予以記錄;采取隨到隨處理的方式順序調用各個處理過程,不同文件的各處理階段之間實現最大程度的并發。
【專利說明】文件批量處理及調度的方法

【技術領域】
[0001]本發明公開了一種文件處理方法,特別是一種文件批量處理及調度的方法。

【背景技術】
[0002]目前,在數據處理類系統中,對于源頭的外部數據文件的檢查、清洗、加載過程非常重要,是數據倉庫建設的基礎;特別對于數據量很大的系統來說,如何能高效穩定的實現上述要求更加關鍵。
[0003]現有技術中針對海量文件的并發處理與調度,尚無專門的文件處理批量調度工具或方法。例如在AIX(Advanced Interactive eXecutive)系統下,AIX系統是 IBM基于 AT&TUnix System V開發的一套類UNIX操作系統,運行在IBM專有的Power系列芯片設計的小型機硬件系統之上。其具有較好的安全性、可管理性和持續可用性等特點,而廣泛應用于銀行、零售業等領域。而以銀行為例,對于海量文件的并發處理和調度問題,始終存在效率低且不夠穩定的問題存在。


【發明內容】

[0004]鑒于現有技術存在的上述問題,本發明的目的在于提供一種文件批量處理及調度方法。該方法可以高效穩定的實現對于源頭的外部數據文件的批量處理和調度。
[0005]為了實現上述目的,本發明提供的一種文件批量處理及調度的方法,包括:
[0006]接收下傳平臺下發的外部數據文件;
[0007]加載所述外部數據文件到數據庫。
[0008]作為優選,加載所述外部數據文件到數據庫,包括:
[0009]連接數據庫;
[0010]獲取加載控制文件并根據所述加載控制文件加載所述外部數據文件到數據庫。[0011 ] 作為優選,在連接數據庫后,先獲取日志文件路徑,并在加載外部數據文件到數據庫后再次檢查加載日志文件判斷加載外部數據文件是否成功,如果判斷加載外部數據文件成功,更新文件狀態并斷開數據庫連接。
[0012]作為優選,在獲取加載控制文件時,如果成功加載,刪除數據庫中當前表區域的數據后進入加載外部數據文件步驟;反之則先編寫加載控制文件再獲取加載控制文件。
[0013]作為優選,加載所述外部數據文件到數據庫之前,判斷所述外部數據文件是否當期文件,如果是則加載所述外部數據文件到數據庫;反之將所述外部數據文件壓縮保存,并在期數到達預設值時,解壓所述外部數據文件。
[0014]作為優選,判斷所述外部數據文件是否當期文件之前,清洗所述外部數據文件,該步驟包括:文件控制信息檢查、獲取文件分隔符、清洗配置文件等公共信息,逐行對文件按照各字段的清洗規則進行清洗,將清洗后數據逐行寫入清洗后文件,計算清洗出錯率。
[0015]作為優選,對所述外部數據文件進行文件清洗之前,檢查所述外部數據文件,包括:
[0016]連接數據庫;
[0017]打開所述外部數據文件,讀取文件控制信息后,檢查文件控制信息并對文件根據不同的檢查設置不同的狀態。
[0018]作為優選,所述文件控制信息包括系統名稱、下傳表名、增全量標識、文件分隔符、數據內容的起始日期及數據內容的結束日期。
[0019]作為優選,檢查所述外部數據文件之前,解壓所述外部數據文件。
[0020]與現有技術相比較,本發明的文件批量處理及調度的方法使用狀態驅動的方法對外部數據文件的各處理階段進行調度,達到高效并發、資源可控的處理文件的目的。并且為文件的每個處理步驟設定狀態,并在數據庫中予以記錄;采取隨到隨處理的方式順序調用各個處理過程,不同文件的各處理階段之間實現最大程度的并發。

【專利附圖】

【附圖說明】
[0021]圖1為本發明的文件批量處理及調度的方法的流程簡圖。
[0022]圖2為本發明的文件批量處理及調度的方法中加載外部數據文件的流程簡圖。
[0023]圖3為本發明的文件批量處理及調度的方法中檢查外部數據文件的流程簡圖。

【具體實施方式】
[0024]以下結合附圖及【具體實施方式】對本發明的技術方案做進一步詳細的說明。
[0025]本發明提供的一種文件批量處理及調度的方法,提供AIX系統下海量文件的并發處理與調度功能,為數據倉庫建設過程的基礎文件數據準備階段提供控制。基本上包括:首先接收下傳平臺下發的外部數據文件;然后再以最大程度的并發使外部數據文件加載到數據庫。這兩個步驟是實現本發明技術方案的最基本的實施方式。而在如下的附圖1中,提供了另一個更為具體的實施方式,如圖1所示,該方法包括:
[0026]S10,接收外部數據文件。這里的外部數據文件通常指來自下傳平臺的所有的數據文件。在數據處理類系統中,對于源頭的外部數據文件的檢查、清洗、加載過程非常重要,是數據倉庫建設的基礎;特別對于數據量很大的系統來說,如何能高效穩定的實現上述要求更加關鍵。
[0027]S11,解壓外部數據文件。這里是指由下傳平臺傳送的外部數據文件如果為壓縮格式,需要在此對其進行解壓縮以便后續操作。實際操作過程中,可以通過在此步驟調用解壓縮程序來進行這一操作。
[0028]S12,檢查外部數據文件。這一步驟的作用是檢查每個文件的文件控制信息是否完整,并且讀取文件控制信息中的系統名稱、下傳表名、增全量標識、文件分隔符、數據內容的起始日期、結束日期等信息。并根據數據庫中其中一個表的配置,獲取外部數據文件對應的數據庫中的表名,然后將這些信息再記錄到另一個表中。例如,在一具體操作中,針對ODS (Operat1nal DataStore,操作性數據存儲)數據集,根據SYS_TABNAMECHG表中的配置,獲取文件對應的ODS表名,并將這些記錄到SYS_FTPFILECTL表中。文件檢查結束后文件的狀態為3000。
[0029]圖3示出了本發明的文件批量處理及調度的方法中檢查外部數據文件的流程簡圖。如圖3所示,在進行文件檢查時,步驟包括:S31、連接數據庫;如果連接成功,則進入S32步驟;S32、打開要檢查的外部數據文件的源文件,如果打開成功則進入S33步驟,如果打開文件失敗,設置文件狀態為2005 ;S33、讀取外部數據文件的文件控制信息,如果讀取成功則進入S34步驟,如果讀取文件控制信息失敗,則設置文件狀態為2001 ;S34、檢查外部數據文件。如果檢查成功,則進入S35步驟。如果檢查失敗,則對文件根據不同的檢查設置不同的狀態;S35、更新文件狀態,如果更新成功則進入S36步驟,如果更新失敗,則設置文件狀態為2006 ;S36、關閉文件;S37、斷開數據庫連接。
[0030]S13、清洗外部數據文件。文件控制信息檢查、獲取文件分隔符、清洗配置文件等公共信息,逐行對文件按照各字段的清洗規則進行清洗,將清洗后數據逐行寫入清洗后文件,計算清洗出錯率。
[0031]S14、加載所述外部數據文件到數據庫之前,判斷所述外部數據文件是否當期文件,如果是則加載所述外部數據文件到數據庫;反之進入S15步驟。
[0032]S15、將所述外部數據文件壓縮保存,并在期數到達預設值時,進入S16步驟。
[0033]S16、解壓所述外部數據文件。
[0034]S17、加載外部數據文件到數據庫。這一步驟的作用是將清洗完后的數據文件通過加載到它所對應的數據庫的表中。承接以上實例,例如通過ODS中SYS_TABNAMECHG表找到對應的ODS表名,然后再調用程序(例如sqlldr工具)將這個清洗后的外部數據文件加載到它對應的ODS表中。同時將加載成功后的文件狀態為6000。
[0035]在這一步驟中,如圖2所示,具體又是通過如下步驟來完成外部數據文件的加載:S21、連接數據庫;S22、在連接上數據庫之后,首先獲取日志文件路徑,如果獲取成功則進入S23步驟;S23、獲取加載控制文件,如果獲取成功進入S25步驟,反之獲取失敗時進入S24步驟;S24、當在S23步驟中獲取加載控制文件失敗時,可以先自動編寫加載控制文件再獲取加載控制文件,進入S25步驟;S25、刪除數據庫中當前表區域的數據后進入加載外部數據文件步驟。例如,仍以ODS數據集為例,當連接上數據庫并獲取加載控制文件后,在這一步驟中刪除當前ODS表的當前區域的數據;S26、加載外部數據文件到數據庫;S27、在獲取加載控制文件并根據所述加載控制文件加載所述外部數據文件到數據庫;S28、更新文件狀態;S29、斷開數據庫連接。
[0036]獲取加具體使用時,直接在文件系統中部署相應程序、數據庫中安裝相關參數表、并創建所需目錄即可。
[0037]本發明的文件批量處理及調度的方法使用狀態驅動的方法對外部數據文件的各處理階段進行調度,達到高效并發、資源可控的處理文件的目的。并且為文件的每個處理步驟設定狀態,并在數據庫中予以記錄;采取隨到隨處理的方式順序調用各個處理過程,不同文件的各處理階段之間實現最大程度的并發。實現在例如AIX系統下海量文件的并發處理與調度功能,為數據倉庫建設過程的基礎文件數據準備階段提供控制。
[0038]當然,以上所述是本發明的優選實施方式,應當指出,對于本【技術領域】的普通技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也視為本發明的保護范圍。
【權利要求】
1.一種文件批量處理及調度的方法,其特征在于,包括: 接收下傳平臺下發的外部數據文件; 加載所述外部數據文件到數據庫。
2.如權利要求1所述的文件批量處理及調度的方法,其特征在于,加載所述外部數據文件到數據庫,包括: 連接數據庫; 獲取加載控制文件并根據所述加載控制文件加載所述外部數據文件到數據庫。
3.如權利要求2所述的文件批量處理及調度的方法,其特征在于,在連接數據庫后,先獲取日志文件路徑,并在加載外部數據文件到數據庫后再次檢查加載日志文件判斷加載外部數據文件是否成功,如果判斷加載外部數據文件成功,更新文件狀態并斷開數據庫連接。
4.如權利要求2所述的文件批量處理及調度的方法,其特征在于,在獲取加載控制文件時,如果成功加載,刪除數據庫中當前表區域的數據后進入加載外部數據文件步驟;反之則先編寫加載控制文件再獲取加載控制文件。
5.如權利要求1所述的文件批量處理及調度的方法,其特征在于,加載所述外部數據文件到數據庫之前,判斷所述外部數據文件是否當期文件,如果是則加載所述外部數據文件到數據庫;反之將所述外部數據文件壓縮保存,并在期數到達預設值時,解壓所述外部數據文件。
6.如權利要求5所述的文件批量處理及調度的方法,其特征在于,判斷所述外部數據文件是否當期文件之前,清洗所述外部數據文件,該步驟包括:檢查文件控制信息;獲取文件分隔符;清洗配置文件,逐行對文件按照各字段預設的清洗規則進行清洗,然后將清洗后數據逐行寫入清洗后的文件。
7.如權利要求6所述的文件批量處理及調度的方法,其特征在于,對所述外部數據文件進行文件清洗之前,檢查所述外部數據文件,包括: 連接數據庫; 打開所述外部數據文件,讀取文件控制信息后,檢查文件控制信息并對文件根據不同的檢查設置不同的狀態。
8.如權利要求7所述的文件批量處理及調度的方法,其特征在于,所述文件控制信息包括系統名稱、下傳表名、增全量標識、文件分隔符、數據內容的起始日期及數據內容的結束日期。
【文檔編號】G06F9/48GK104484441SQ201410816038
【公開日】2015年4月1日 申請日期:2014年12月23日 優先權日:2014年12月23日
【發明者】王莉, 郭鑄, 王作為, 陳世強 申請人:中國銀行股份有限公司
網友詢問(wen)留(liu)言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1