一種用于數據排序的系統及方法與流程

文(wen)檔序號：39426948發(fa)布(bu)日(ri)期：2024-09-20 22:24閱讀：11來源：國知局

本發(fa)明涉(she)及(ji)深(shen)度學習，特(te)別涉(she)及(ji)一種用(yong)于數據排序的系統及(ji)方法。

背景技術：

1、隨(sui)著(zhu)大數(shu)據和(he)(he)人(ren)工(gong)智能技術的不斷發展，深度(du)(du)學習(xi)(xi)及機器學習(xi)(xi)模型(xing)(xing)的參數(shu)規模和(he)(he)復(fu)雜(za)度(du)(du)正以指數(shu)級速度(du)(du)增長，尤其(qi)是在深度(du)(du)學習(xi)(xi)領域，大規模的神經(jing)網絡模型(xing)(xing)，包括但不限(xian)于(yu)transformer系列，如bert、gpt等，已成為解(jie)決復(fu)雜(za)問題的首選方案。得益于(yu)其(qi)龐大的參數(shu)量和(he)(he)深層的網絡結構，此(ci)類模型(xing)(xing)可(ke)提供卓越的預測(ce)能力(li)和(he)(he)處理復(fu)雜(za)任(ren)務的能力(li)。

2、然(ran)而，隨(sui)著深(shen)度學(xue)習(xi)模(mo)(mo)型(xing)規(gui)模(mo)(mo)的(de)(de)不斷擴大，其所需(xu)處理(li)的(de)(de)數(shu)(shu)據量(liang)和(he)(he)計(ji)算(suan)量(liang)也隨(sui)之(zhi)(zhi)增長。為了緩解由大型(xing)模(mo)(mo)型(xing)引起的(de)(de)計(ji)算(suan)壓力，可考慮有效利(li)用數(shu)(shu)據和(he)(he)模(mo)(mo)型(xing)的(de)(de)稀(xi)疏性(xing)，來減少(shao)必(bi)要的(de)(de)計(ji)算(suan)和(he)(he)數(shu)(shu)據處理(li)量(liang)。目前最常見的(de)(de)方(fang)法之(zhi)(zhi)一是通(tong)過數(shu)(shu)值排序來挑選出對(dui)計(ji)算(suan)影響較大的(de)(de)參數(shu)(shu)，進(jin)而顯著減少(shao)計(ji)算(suan)開(kai)銷。然(ran)而，不論是軟(ruan)件(jian)層面的(de)(de)數(shu)(shu)值排序還是依(yi)賴專(zhuan)用硬件(jian)的(de)(de)排序電路，均需(xu)頻繁地在(zai)存儲單元(yuan)之(zhi)(zhi)間搬運數(shu)(shu)據以完成排序任務，這不僅(jin)占(zhan)用大量(liang)空(kong)間，也消耗巨大能量(liang)。特別是在(zai)深(shen)度學(xue)習(xi)模(mo)(mo)型(xing)計(ji)算(suan)常常依(yi)賴gpu進(jin)行(xing)的(de)(de)情況(kuang)下，傳(chuan)統(tong)的(de)(de)排序實現方(fang)法導致了大量(liang)gpu與cpu之(zhi)(zhi)間的(de)(de)數(shu)(shu)據傳(chuan)輸(shu)，增加了額外的(de)(de)計(ji)算(suan)成本(ben)和(he)(he)能耗。

技術實現思路

1、針(zhen)對現(xian)有技術中的(de)部分或全部問題(ti)，本發明第一(yi)方面(mian)提供(gong)一(yi)種用于(yu)數(shu)據排序的(de)系統(tong)，其(qi)可(ke)通過一(yi)次搜索與查(cha)找能快速定位最關鍵的(de)前k個數(shu)(top-k)的(de)值，從(cong)而實現(xian)一(yi)個時間(jian)復(fu)雜度為(wei)常數(shu)的(de)排序操作(zuo)，所述系統(tong)包括(kuo)：

2、控制模(mo)塊(contro?l?l?er)，其用于協(xie)調緩存模(mo)塊、搜索模(mo)塊的時序，并進行數(shu)據傳輸(shu)；

3、緩存模(mo)塊(buffer)，其包括(kuo)：

4、第一存(cun)儲區，其用于(yu)存(cun)儲待排序的數據；

5、第(di)二存儲區，其與所(suo)述(shu)搜索(suo)模塊可通信地(di)連接，且用于存儲所(suo)述(shu)搜索(suo)模塊的輸(shu)出；以及

6、第(di)三存儲區(qu)，其與(yu)所述第(di)二存儲區(qu)可通信地連(lian)接，用于基于所述輸出獲取最關鍵的(de)前k個數(top-k)的(de)值；以(yi)及

7、搜索(suo)模(mo)塊(kuai)(search?engi?ne)，其包括(kuo)三態內容可尋址存儲器，用于確定所述待排序(xu)(xu)數(shu)據的排序(xu)(xu)。

8、進一步地，所(suo)(suo)述搜(sou)索模塊(kuai)的(de)輸出(chu)包括(kuo)l個(ge)向量(liang)，其中每(mei)個(ge)所(suo)(suo)述向量(liang)表(biao)示一個(ge)待排序數據的(de)相對位置，l為所(suo)(suo)述待排序數據的(de)總個(ge)數。

9、進一(yi)(yi)(yi)步地，所述第三存儲區(qu)包括第一(yi)(yi)(yi)數(shu)據(ju)陣列，所述第一(yi)(yi)(yi)數(shu)據(ju)陣列的每一(yi)(yi)(yi)行(xing)表(biao)示一(yi)(yi)(yi)個數(shu)據(ju)，且(qie)每一(yi)(yi)(yi)行(xing)設置(zhi)有(you)一(yi)(yi)(yi)條行(xing)選擇線(row?se?l?ect)，所述第一(yi)(yi)(yi)數(shu)據(ju)陣列中的數(shu)據(ju)按(an)照數(shu)值大小依(yi)次排序。

10、進一(yi)(yi)步地，所(suo)述(shu)三態內容可尋址存(cun)儲器包括(kuo)第二(er)數(shu)據陣列(lie)(lie)(crosabar)，所(suo)述(shu)第二(er)數(shu)據陣列(lie)(lie)的每(mei)一(yi)(yi)行表示一(yi)(yi)個(ge)數(shu)據，且(qie)每(mei)一(yi)(yi)行設(she)置有一(yi)(yi)條匹配線(xian)(match?li?ne，ml)，所(suo)述(shu)第二(er)數(shu)據陣列(lie)(lie)中(zhong)的數(shu)據按照(zhao)數(shu)值大(da)小依(yi)次排序。

11、進一步地，所述第二數據(ju)陣(zhen)列與(yu)第一數據(ju)陣(zhen)列中的數據(ju)相同，且排序方法相同。

12、進(jin)一步地，所(suo)述(shu)(shu)第一數(shu)據陣列及第二(er)數(shu)據陣列的大(da)(da)小不小于2(m+n)×(m+n)，其中m、n分別為所(suo)述(shu)(shu)待排序(xu)數(shu)據的整數(shu)及小數(shu)位(wei)寬最大(da)(da)值(zhi)。

13、進(jin)一步地，所述三態內容可尋址存儲器還包括：

14、搜索線(xian)(xian)(search?li?ne，sl)，所述(shu)第(di)二數據陣列(lie)的(de)(de)每一列(lie)設置有正反兩條(tiao)搜索線(xian)(xian)，以用(yong)于(yu)查找輸入數據在(zai)所述(shu)第(di)二數據陣列(lie)中的(de)(de)位置，確定(ding)位置后激活對應的(de)(de)匹配線(xian)(xian)；以及(ji)

15、感應放大器(qi)(sa)，所(suo)述匹配線連接(jie)至所(suo)述感應放大器(qi)的輸入(ru)端(duan)，以(yi)對信(xin)號進行放大。

16、基于如前所述的(de)系統，本發明第(di)二方(fang)面提供(gong)一種(zhong)用于數(shu)據排序的(de)方(fang)法，包括：

17、在第(di)三(san)存(cun)儲(chu)(chu)區(qu)及三(san)態(tai)內(nei)容可尋址存(cun)儲(chu)(chu)器(qi)內(nei)分(fen)別存(cun)儲(chu)(chu)第(di)一(yi)(yi)、第(di)二(er)數(shu)(shu)據(ju)陣列，所述第(di)一(yi)(yi)、第(di)二(er)數(shu)(shu)據(ju)陣列的(de)大(da)小(xiao)(xiao)不(bu)小(xiao)(xiao)于2(m+n)×(m+n)，其(qi)中(zhong)m、n分(fen)別為(wei)所述待(dai)排(pai)序數(shu)(shu)據(ju)的(de)整數(shu)(shu)及小(xiao)(xiao)數(shu)(shu)位寬(kuan)最大(da)值；

18、通過搜索模塊(kuai)從第一存儲區逐(zhu)個(ge)讀(du)取待(dai)排序數(shu)(shu)據，并與所(suo)述(shu)第二數(shu)(shu)據陣(zhen)列(lie)進(jin)行比較，得到表示所(suo)述(shu)待(dai)排序數(shu)(shu)據相對位(wei)置的向量；

19、將所述向量存儲至第(di)二(er)存儲區；以及

20、根據(ju)所(suo)述向量，以及(ji)所(suo)需的(de)數(shu)據(ju)個數(shu)k，從所(suo)述第三存(cun)儲區的(de)第一數(shu)據(ju)陣列中(zhong)確(que)定排序前(qian)k的(de)k個數(shu)值并輸出。

21、本發明提供的(de)一種用(yong)于數(shu)據排序的(de)系統及(ji)方(fang)(fang)法，其(qi)通過預先(xian)將數(shu)據范圍內(nei)(nei)的(de)所有數(shu)值(zhi)按大(da)小(xiao)順序存(cun)(cun)入三態內(nei)(nei)容可(ke)尋址寄存(cun)(cun)器(ternary?content?addressab?l?e?memory,tcam)，再(zai)結合(he)tcam的(de)快(kuai)速(su)(su)匹(pi)配能力，快(kuai)速(su)(su)篩選出所需要的(de)最(zui)關鍵(jian)的(de)前(qian)k個數(shu)(top-k)。所述系統直接在存(cun)(cun)儲(chu)器完成排序，最(zui)終(zhong)通過激(ji)活的(de)匹(pi)配線(match?l?i?nes)聚(ju)合(he)成的(de)向量(liang)直接揭示數(shu)據集中最(zui)大(da)的(de)k個數(shu)值(zhi)，無需額外的(de)數(shu)據處(chu)理(li)步驟，因此可(ke)以減少存(cun)(cun)儲(chu)器與計(ji)算(suan)部件之間的(de)數(shu)據搬(ban)運代價，同時(shi)降(jiang)低對(dui)cpu計(ji)算(suan)資(zi)源的(de)依賴和占用(yong)，進而可(ke)以顯著(zhu)地降(jiang)低大(da)規模深度(du)學習(xi)模型對(dui)計(ji)算(suan)資(zi)源和存(cun)(cun)儲(chu)空(kong)間的(de)需求(qiu)，大(da)幅地提高稀疏數(shu)據的(de)處(chu)理(li)速(su)(su)度(du)和效率。與傳統方(fang)(fang)法相比，其(qi)顯著(zhu)降(jiang)低了計(ji)算(suan)復雜度(du)和功耗。

技術特征：

1.一種(zhong)用(yong)于數據排序的系(xi)統，其特(te)征在(zai)于，包括(kuo)：

2.如(ru)權利(li)要求1所(suo)述的(de)系統(tong)，其(qi)特征在于，所(suo)述搜(sou)索模(mo)塊的(de)輸(shu)出包括l個向量(liang)，其(qi)中每個所(suo)述向量(liang)表示(shi)一個待排序數據的(de)相(xiang)對位置(zhi)，l為所(suo)述待排序數據的(de)總個數。

3.如(ru)權利要(yao)求1所述(shu)的系統，其特征在于，所述(shu)第(di)三存儲區包括第(di)一(yi)(yi)數(shu)據(ju)陣列(lie)，所述(shu)第(di)一(yi)(yi)數(shu)據(ju)陣列(lie)的每一(yi)(yi)行表示一(yi)(yi)個數(shu)據(ju)，且每一(yi)(yi)行設置有一(yi)(yi)條行選(xuan)擇線(xian)，所述(shu)第(di)一(yi)(yi)數(shu)據(ju)陣列(lie)中的數(shu)據(ju)按照數(shu)值大(da)小依(yi)次排序(xu)。

4.如權利要求1所(suo)述的系統，其特征在于，所(suo)述三態內容可尋(xun)址(zhi)存儲器包括第二數(shu)據(ju)(ju)陣列(lie)，所(suo)述第二數(shu)據(ju)(ju)陣列(lie)的每(mei)(mei)一(yi)行(xing)(xing)表(biao)示一(yi)個數(shu)據(ju)(ju)，且每(mei)(mei)一(yi)行(xing)(xing)設置有一(yi)條(tiao)匹配(pei)線，所(suo)述第二數(shu)據(ju)(ju)陣列(lie)中的數(shu)據(ju)(ju)按照數(shu)值(zhi)大小依次排序(xu)。

5.如權(quan)利(li)要求4所述的系(xi)統，其(qi)特征(zheng)在于，所述第二數據陣列(lie)與第一(yi)數據陣列(lie)中的數據相同(tong)，且排序方法相同(tong)。

6.如權利要求5所述(shu)(shu)的(de)(de)系統，其特征在于，所述(shu)(shu)第一數(shu)據陣(zhen)列(lie)(lie)及第二數(shu)據陣(zhen)列(lie)(lie)的(de)(de)大小不小于2(m+n)×(m+n)，其中m、n分別(bie)為所述(shu)(shu)待排序數(shu)據的(de)(de)整數(shu)及小數(shu)位寬最(zui)大值。

7.如(ru)權利要求5所(suo)(suo)述的系統，其(qi)特征在于(yu)，所(suo)(suo)述第(di)一數據陣列及第(di)二數據陣列中的數據采用(yong)降序排列。

8.如權利要(yao)求5所述(shu)的系統，其(qi)特征在于，所述(shu)三(san)態(tai)內容(rong)可尋址存儲器還(huan)包括：

9.如(ru)權利要求5所述的(de)系統，其特征在(zai)于，所述三態內容可尋址存儲器還包括：

10.一種用(yong)于數據排序(xu)的(de)方法，其(qi)特(te)征在于，包括步驟：

技術總結
本發明公開一種用于數據排序的系統，其包括控制模塊、緩存模塊以及搜索模塊。其中控制模塊用于協調緩存模塊、搜索模塊的時序，并進行數據傳輸。緩存模塊包括三個存儲器，其中第一存儲區用于存儲待排序的數據，第二存儲區與搜索模塊可通信地連接，以存儲搜索模塊的輸出，第三存儲區與第二存儲區可通信地連接，用于基于搜索模塊的輸出，獲取最關鍵的前K個數的值。搜索模塊包括三態內容可尋址存儲器，用于確定待排序數據的排序。該系統僅需一次讀取即可進行排序并篩選出Top?K，極大地縮短了運行時間，提高了運行速度。

技術研發人員：李冰,齊穎,楊越
受保護的技術使用者：北京蘋芯科技有限公司
技術研發日：
技術公布日：2024/9/19

完整全部詳細技術(shu)資料下載(zai)

該技術已申請專利。僅供(gong)學習研究，如用(yong)于商業用(yong)途，請聯(lian)系(xi)技術所有人。
技術研(yan)發人(ren)員：李冰(bing),齊穎,楊越
技術所有人：北京蘋芯科技有限公司
我是此專利的發明人

上一篇：構建聯邦數據湖倉的方法、系統及存儲介質與流程
上(shang)一篇：Burst模式下的同步整流控制方法、控制器和開關電源與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術(shu)

網友詢(xun)問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

中文字幕无码日韩视频无码三区

一種用于數據排序的系統及方法與流程