本發明涉及信息處(chu)理(li),尤其涉及一種基于llm技術的智(zhi)能審計報告信息提取方法。
背景技術:
1、隨著(zhu)計(ji)(ji)算機技(ji)術(shu)的(de)(de)(de)廣泛應用(yong),尤(you)其是近(jin)幾年人(ren)工智能技(ji)術(shu)的(de)(de)(de)快(kuai)速發展,我國的(de)(de)(de)審(shen)(shen)計(ji)(ji)工作(zuo)已逐漸從自動(dong)化(hua)審(shen)(shen)計(ji)(ji)向智能化(hua)審(shen)(shen)計(ji)(ji)發展,作(zuo)為智能化(hua)的(de)(de)(de)基礎,知識庫的(de)(de)(de)組(zu)建亦成為大勢(shi)所趨(qu)。歷(li)年審(shen)(shen)計(ji)(ji)成果(guo)是審(shen)(shen)計(ji)(ji)知識庫的(de)(de)(de)重(zhong)要(yao)(yao)組(zu)成部分,審(shen)(shen)計(ji)(ji)報告作(zuo)為審(shen)(shen)計(ji)(ji)成果(guo)的(de)(de)(de)最(zui)主要(yao)(yao)呈現方式,對其進行(xing)關鍵信息的(de)(de)(de)提(ti)取,實現審(shen)(shen)計(ji)(ji)報告的(de)(de)(de)結構化(hua)具有極其重(zhong)要(yao)(yao)的(de)(de)(de)意(yi)義。
2、中國專利cn110674254公開了一種深度(du)(du)學習(xi)(xi)和(he)(he)統(tong)計(ji)(ji)提(ti)取模型(xing)的(de)(de)智能(neng)合同信息(xi)(xi)提(ti)取方(fang)(fang)法(fa)(fa),該(gai)方(fang)(fang)法(fa)(fa)將合同劃分為寫(xie)明(ming)標準信息(xi)(xi)格式(shi)和(he)(he)未寫(xie)明(ming)語義理解型(xing)格式(shi)兩(liang)種。針對寫(xie)明(ming)標準信息(xi)(xi)格式(shi)的(de)(de)合同,該(gai)方(fang)(fang)法(fa)(fa)對合同進(jin)(jin)行分詞(ci)處(chu)理后(hou),通過統(tong)計(ji)(ji)實現(xian)信息(xi)(xi)提(ti)取;針對未寫(xie)明(ming)語義理解型(xing)格式(shi)的(de)(de)合同,該(gai)方(fang)(fang)法(fa)(fa)同樣(yang)進(jin)(jin)行分詞(ci)和(he)(he)統(tong)計(ji)(ji)處(chu)理后(hou),通過深度(du)(du)學習(xi)(xi)模型(xing)進(jin)(jin)行信息(xi)(xi)提(ti)取。但是,審計(ji)(ji)報告的(de)(de)文(wen)(wen)本表述(shu)較合同復(fu)雜(za),該(gai)方(fang)(fang)法(fa)(fa)所提(ti)出(chu)的(de)(de)基(ji)于分詞(ci)和(he)(he)統(tong)計(ji)(ji)的(de)(de)文(wen)(wen)本預處(chu)理方(fang)(fang)法(fa)(fa)不能(neng)很好(hao)地適用,且傳統(tong)深度(du)(du)學習(xi)(xi)模型(xing)的(de)(de)語義理解和(he)(he)前后(hou)文(wen)(wen)關(guan)聯能(neng)力有限。
3、近來(lai)以openai發(fa)布的(de)(de)(de)chatgpt為首(shou)的(de)(de)(de)llm技(ji)(ji)(ji)術(shu)在語義理(li)解和(he)(he)文(wen)(wen)本(ben)(ben)生(sheng)成(cheng)能(neng)力(li)上的(de)(de)(de)表現遠(yuan)遠(yuan)超出人們的(de)(de)(de)預期,由此(ci)引(yin)發(fa)了各(ge)行各(ge)業的(de)(de)(de)技(ji)(ji)(ji)術(shu)變(bian)革,中(zhong)國專(zhuan)利cn116795968公開了一種(zhong)基于chat?llm技(ji)(ji)(ji)術(shu)的(de)(de)(de)知識拓(tuo)展及qa系統,是llm技(ji)(ji)(ji)術(shu)在智能(neng)問答(da)技(ji)(ji)(ji)術(shu)領域的(de)(de)(de)應(ying)用(yong)。llm技(ji)(ji)(ji)術(shu)的(de)(de)(de)優勢在于龐大(da)的(de)(de)(de)參(can)數(shu)量帶來(lai)的(de)(de)(de)模(mo)型能(neng)力(li)突破,擁(yong)有更加強大(da)的(de)(de)(de)語義理(li)解能(neng)力(li)、文(wen)(wen)本(ben)(ben)生(sheng)成(cheng)能(neng)力(li)和(he)(he)遷(qian)移能(neng)力(li),但龐大(da)的(de)(de)(de)參(can)數(shu)量同時也使得該(gai)技(ji)(ji)(ji)術(shu)應(ying)用(yong)的(de)(de)(de)硬件門檻和(he)(he)使用(yong)成(cheng)本(ben)(ben)較高。
4、目(mu)前(qian)llm技(ji)術在審計行(xing)業(ye)(ye)領域的(de)(de)應用仍(reng)極少,由于(yu)審計行(xing)業(ye)(ye)數(shu)據的(de)(de)特(te)殊性,通(tong)用llm模型(xing)難以很好地(di)直接適用該垂直領域上的(de)(de)應用,需要經過(guo)行(xing)業(ye)(ye)數(shu)據的(de)(de)模型(xing)精調訓練,這也進一步增加(jia)了llm技(ji)術在該領域應用的(de)(de)硬件門檻。
技術實現思路
1、本發明(ming)的目的在于提供一種基(ji)于llm技(ji)(ji)術的智能(neng)審計報(bao)告信(xin)息(xi)提取方法,實(shi)現(xian)在單(dan)張(zhang)消費級顯卡上應用llm技(ji)(ji)術的審計報(bao)告結構化。
2、為實(shi)現上(shang)述目的,本技術提供如下技術方案:
3、一種基于(yu)llm技術的智能審計報告信(xin)息提取(qu)方法,其特(te)征在(zai)于(yu)包(bao)含以下(xia)步驟:
4、步(bu)驟一:審計報告讀取(qu),讀取(qu)審計報告中的文(wen)本內容;
5、步(bu)驟(zou)二:利用正(zheng)則化(hua)匹(pi)配技術,將整份審(shen)計報告劃分為(wei)封面頁(ye)、正(zheng)文和尾頁(ye)三個模塊;
6、步驟(zou)(zou)三:通過(guo)審計報告結構化llm模型,對(dui)上述步驟(zou)(zou)獲(huo)取的封面頁模塊的文本(ben)內容(rong)進行信息(xi)(xi)提取,完成(cheng)審計項(xiang)目相關的信息(xi)(xi)字段獲(huo)取。
7、步驟四:通過(guo)審計報告結構(gou)化llm模(mo)型(xing),對上述步驟獲取(qu)的(de)正文模(mo)塊的(de)文本內(nei)容進行信息提取(qu),完成審計問題相(xiang)關的(de)信息字段獲取(qu)。
8、審(shen)計項目(mu)相(xiang)關(guan)的信息(xi)(xi)字段和審(shen)計問題(ti)相(xiang)關(guan)的信息(xi)(xi)字段共(gong)同組成(cheng)整(zheng)份審(shen)計報(bao)告(gao)的結構化信息(xi)(xi)。
9、進一步(bu)地,所述步(bu)驟四(si)具體過程如下:
10、4.1利用正則化匹配技術,獲取正文(wen)模(mo)塊中(zhong)的一級標題的文(wen)本內(nei)容;
11、4.2將上述步驟獲取的一(yi)級(ji)標(biao)題(ti)文(wen)本輸入審計報告(gao)結構化(hua)llm模(mo)型,獲取待提取信息字段所在的章節(jie)標(biao)題(ti),從而獲取該章節(jie)標(biao)題(ti)下的文(wen)本內容;
12、4.3通過審計報告結構化llm模型,對上(shang)述步(bu)驟(zou)獲取(qu)的(de)目標章節(jie)下的(de)文本內容逐自然(ran)段(duan)進行段(duan)落分(fen)類;
13、4.4根據(ju)上述步(bu)驟(zou)的(de)段(duan)落(luo)分類結(jie)果,通過審計報告結(jie)構化llm模型(xing),逐(zhu)段(duan)對目(mu)標章節下的(de)文本內(nei)容進行(xing)信息(xi)提取,輔(fu)以后(hou)處(chu)理算法完成審計問題(ti)相(xiang)關(guan)的(de)信息(xi)字(zi)段(duan)獲取;
14、更(geng)進(jin)一步地,所述步驟4.4中的后處理(li)算法,具體(ti)過程為:
15、s1:初(chu)始化審(shen)計問題字典;
16、s2:對自然(ran)段進(jin)行(xing)分(fen)類(lei),若(ruo)分(fen)為(wei)(wei)問(wen)題(ti)(ti)類(lei)別(bie)或問(wen)題(ti)(ti)標題(ti)(ti),更(geng)新審(shen)計(ji)問(wen)題(ti)(ti)字(zi)典相應關鍵詞的值,進(jin)入s2.1;若(ruo)分(fen)為(wei)(wei)問(wen)題(ti)(ti)描述,進(jin)入s2.2,否則,返回s2對下一自然(ran)段繼續判斷;
17、s2.1:對(dui)下一自然段(duan)進行(xing)分類,這段(duan)內容應該(gai)是問(wen)(wen)題(ti)(ti)(ti)標(biao)(biao)題(ti)(ti)(ti)或問(wen)(wen)題(ti)(ti)(ti)描(miao)述,也可能被審計(ji)報(bao)告(gao)結構化llm模型誤判為問(wen)(wen)題(ti)(ti)(ti)類別。若結果為問(wen)(wen)題(ti)(ti)(ti)標(biao)(biao)題(ti)(ti)(ti)或問(wen)(wen)題(ti)(ti)(ti)類別,均(jun)更新(xin)審計(ji)問(wen)(wen)題(ti)(ti)(ti)字典中問(wen)(wen)題(ti)(ti)(ti)標(biao)(biao)題(ti)(ti)(ti)關鍵字的值,進入s2.1.1;若結果為問(wen)(wen)題(ti)(ti)(ti)描(miao)述,進入s2.2;
18、s2.1.1:下一段(duan)(duan)內容應該(gai)是問(wen)題描述,跳(tiao)過審計報告結(jie)構化llm模型的(de)分類,直接依次對該(gai)段(duan)(duan)落進行問(wen)題金額、定性依據、處理意見等信息的(de)提取(qu)任(ren)務,更新(xin)審計問(wen)題字典相應關鍵詞的(de)值;
19、s2.1.2:對下一自然段進行分類,若為問(wen)(wen)(wen)題描述(shu),依次對該段落進行問(wen)(wen)(wen)題金額、定性依據、處理意見等(deng)信息的提取任務,更新審(shen)計(ji)問(wen)(wen)(wen)題字典相應關(guan)鍵詞的值(zhi),返回s2.1.2;否則,保存當前(qian)審(shen)計(ji)問(wen)(wen)(wen)題字典,進入s2.4;
20、s2.2:對(dui)本段落依(yi)次進行問題標題、問題金(jin)額、定性依(yi)據等信(xin)息的提取任務,更新審計問題字典(dian)相應關鍵詞的值(zhi),進入(ru)s2.3;
21、s2.3:對下一自然段(duan)進行分類,若為問題描述,返回(hui)s2.2,否則,保存當前審計問題字典(dian),進入s2.4;
22、s2.4:若已處理(li)完所(suo)有段(duan)落,則退出;否(fou)則,返回s1。
23、上述過程保存(cun)下來的審計問題字(zi)典便是本次處(chu)理的審計報(bao)告(gao)中審計問題相關的提取信息。
24、進一步地,所述審計報告結構化(hua)llm模型(xing)的構建(jian),具體過程為:
25、s1:收集(ji)整理歷(li)年審(shen)計報告,構建(jian)基礎數據庫database1;
26、s2:針對步(bu)驟三(san)(san),對database1進(jin)行(xing)(xing)提取(qu)任務(wu)的數據(ju)標注(zhu),以三(san)(san)元組(任務(wu)提示詞、上下(xia)文信息、答案)的形式進(jin)行(xing)(xing)組織;
27、s3:針對(dui)步驟4.2,對(dui)database1進行一級標題數據標注,以(yi)三元組(zu)(zu)(任務提示詞、上下文信(xin)息、答案)的(de)形(xing)式進行組(zu)(zu)織,實現目標章節標題的(de)獲取;
28、s4:針對(dui)步驟4.3,對(dui)database1進行段落類(lei)(lei)別數據標注(zhu)以三元(yuan)組(zu)(任(ren)務提示詞、上下(xia)文信(xin)息、答(da)案(an))的形式進行組(zu)織,類(lei)(lei)別包括(kuo)問題(ti)(ti)類(lei)(lei)別、問題(ti)(ti)標題(ti)(ti)、問題(ti)(ti)描述和無關;
29、s5:針(zhen)對步(bu)驟4.4,對不同類(lei)別的段落(luo)分別做不同字(zi)段信息提取的數據標注,以(yi)三元組(zu)(任務(wu)提示(shi)詞、上下文信息、答(da)案)的形式進行組(zu)織:
30、s6:將步(bu)驟(zou)(zou)s2-s5的標注結果分別(bie)按比例隨機劃分為訓(xun)(xun)練(lian)集(ji)(ji)(ji)、驗(yan)(yan)證(zheng)集(ji)(ji)(ji)和測試(shi)集(ji)(ji)(ji),各步(bu)驟(zou)(zou)的訓(xun)(xun)練(lian)集(ji)(ji)(ji)共同(tong)組成llm模(mo)型構建所(suo)需的訓(xun)(xun)練(lian)集(ji)(ji)(ji)traindataset,各步(bu)驟(zou)(zou)的驗(yan)(yan)證(zheng)集(ji)(ji)(ji)共同(tong)組成llm模(mo)型構建所(suo)需的驗(yan)(yan)證(zheng)集(ji)(ji)(ji)valdataset,各步(bu)驟(zou)(zou)的測試(shi)集(ji)(ji)(ji)共同(tong)組成llm模(mo)型構建所(suo)需的測試(shi)集(ji)(ji)(ji)testdataset;
31、s7:基于traindataset和valdataset,使(shi)用llm微調框(kuang)架對llm模(mo)型(xing)進行(xing)微調訓練,保(bao)存在testdataset上獲得最好性(xing)能的模(mo)型(xing)作為(wei)審計報告結構化(hua)llm模(mo)型(xing)。
32、本(ben)發明與現有技術相比,具有以下優(you)點和效(xiao)果:
33、本發(fa)明在單張(zhang)消費級顯卡上完成llm模型(xing)的(de)(de)(de)(de)精調訓練和部(bu)署推理,基(ji)于llm技(ji)術對審(shen)計(ji)(ji)報告進行語義分析(xi),實現了全自動的(de)(de)(de)(de)、更(geng)精確的(de)(de)(de)(de)審(shen)計(ji)(ji)報告信息提取,提升了審(shen)計(ji)(ji)成果(guo)的(de)(de)(de)(de)復(fu)用率,為后續的(de)(de)(de)(de)知識(shi)庫(ku)建(jian)立、智能推薦(jian)和定(ding)責合(he)理性研判等人工智能賦能審(shen)計(ji)(ji)場景的(de)(de)(de)(de)功能開(kai)發(fa)奠定(ding)了基(ji)礎(chu)。