搜索結果頁面的圖片適應性處理的方法、裝置和服務器的制造方法
【技術領域】
[0001]本發明涉及數據處理領域,具體而言,涉及一種搜索結果頁面的圖片適應性處理的方法、裝置和服務器。
【背景技術】
[0002]目前,在用戶通過搜索引擎搜索信息時,為了提升用戶的搜索體驗,增加用戶點擊率,搜索引擎在向用戶返回搜索結果的同時會將與搜索結果相關的圖片一并展示出來,這樣可以讓用戶通過圖片直接、快速地確定最想得到的搜索結果。
[0003]相關技術中,為了將搜索結果和相應圖片一并展示出來,會通過人工預先根據需要展示給用戶的網頁中的圖片尺寸設置網頁爬蟲可以抓取的圖片尺寸,使得網頁爬蟲抓取對應圖片尺寸的圖片,并在抓取到圖片后,使得搜索引擎根據得到的各搜索結果權重和規則進行各搜索結果和相應圖片的展示。
[0004]在通過網頁爬蟲抓取圖片時,圖片的抓取策略比較單一,只能對預設尺寸的圖片進行抓取,降低了圖片的抓取效率,并在不同應用上展示搜索結果和相應圖片時,只能以相同的圖片尺寸進行圖片展示,不能抓取適應不同應用的圖片展示尺寸的圖片并進行展示,降低了圖片在不同應用上的展示效果。
【發明內容】
[0005]有鑒于此,本發明實施例的目的在于提供一種搜索結果頁面的圖片適應性處理的方法、裝置和服務器,可以抓取適應不同應用的圖片展示尺寸的圖片并進行展示,提高了圖片在在不同應用上的展示效果。
[0006]第一方面,本發明實施例提供了一種搜索結果頁面的圖片適應性處理的方法,包括:
[0007]獲取搜索結果的頁面數據,所述搜索結果的頁面數據是根據用戶在特定應用發出的搜索請求所獲取的;
[0008]根據預設的抓取規則,從所述搜索結果的頁面數據中確定與所述特定應用對應的目標圖片,并獲取所述目標圖片的鏈接信息;
[0009]根據所述目標圖片的鏈接信息,抓取所述目標圖片;
[0010]根據所述目標圖片的鏈接信息中記錄的所述目標圖片的縮略尺寸和圖片剪裁方式,對所述目標圖片進行縮略剪裁操作,得到與所述特定應用的頁面顯示相適應的縮略圖。
[0011]結合第一方面,本發明實施例提供了上述第一方面的第一種可能的實現方式,其中,根據預設的抓取規則,從所述搜索結果的頁面數據中確定與所述搜索結果對應的目標圖片,包括:
[0012]從所述搜索結果的頁面數據中提取各個圖片的尺寸信息和所述圖片在搜索結果頁面的位置信息;
[0013]確定所述圖片尺寸信息符合預設尺寸范圍且所述圖片在搜索結果頁面的位置信息在預設網頁位置的圖片為待抓取圖片;
[0014]將預設的過濾圖片列表中未記錄的所述待抓取圖片確定為目標圖片。
[0015]結合第一方面和第一方面的第一種可能的實現方式,本發明實施例提供了上述第一方面的第二種可能的實現方式,其中,在根據預設的抓取規則,從所述搜索結果的頁面數據中確定與所述特定應用對應的目標圖片,并獲取所述目標圖片的鏈接信息之后,所述方法還包括:
[0016]根據所述鏈接信息中攜帶的公鑰,確定與所述公鑰對應的私鑰;
[0017]通過確定的所述私鑰對所述鏈接信息中攜帶的所述目標圖片的地址信息進行加密操作,生成簽名驗證信息;
[0018]當生成的所述簽名驗證信息與所述目標圖片攜帶的數字簽名相一致時,執行抓取所述目標圖片步驟。
[0019]結合第一方面,本發明實施例提供了上述第一方面的第三種可能的實現方式,其中,根據目標圖片的鏈接信息,抓取所述目標圖片,包括:
[0020]根據目標圖片的鏈接信息中攜帶的地址信息,判斷在預設抓取時間長度內是否有相同的所述目標圖片已經進行了抓取操作;
[0021 ] 如果否,則通過網絡爬蟲抓取所述目標圖片。
[0022]結合第一方面和第一方面的第三種可能的實現方式,本發明實施例提供了上述第一方面的第四種可能的實現方式,其中,根據目標圖片的鏈接信息,抓取所述目標圖片,包括:
[0023]當所述目標圖片抓取失敗時,判斷距離最近一次抓取所述目標圖片的時長是否達到預設時間長度;
[0024]如果是,則當抓取失敗的所述目標圖片的重復抓取次數未達到預設閾值時,從預設的代理標識列表中獲取代理標識,代理標識用于指示代理服務器或者代理進程;
[0025]利用網絡爬蟲,通過獲取到的代理標識對應的代理服務器或者代理進程,對抓取失敗的所述目標圖片進行重新抓取。
[0026]結合第一方面,本發明實施例提供了上述第一方面的第五種可能的實現方式,其中,在根據目標圖片的鏈接信息,抓取所述目標圖片之后,所述方法還包括:
[0027]當通過網絡爬蟲抓取到所述目標圖片時,獲取當前各個存儲服務器的負載信息;
[0028]根據所述各個存儲服務器的負載信息,從所述各個存儲服務器中確定出負載最小的存儲服務器;
[0029]將抓取到的所述目標圖片發送到所述負載最小的存儲服務器進行存儲。
[0030]結合第一方面的第五種可能的實現方式,本發明實施例提供了上述第一方面的第六種可能的實現方式,其中,當通過網絡爬蟲抓取到目標圖片時,獲取當前存儲服務器集群中各個存儲服務器的負載信息,包括:
[0031 ]獲取所述網絡爬蟲抓取到的所述目標圖片;
[0032]對抓取到的所述目標圖片的圖片地址進行哈希計算,得到圖片鏈接哈希值;
[0033]生成所述目標圖片和對應圖片鏈接哈希值的對應關系,并將生成的目標圖片和對應圖片鏈接哈希值的對應關系存儲到過濾圖片列表中。
[0034]結合第一方面和第一方面的第六種可能的實現方式,本發明實施例提供了上述第一方面的第七種可能的實現方式,其中,所述方法還包括:
[0035]獲取預設清理圖片時長內被訪問過的圖片鏈接哈希值;
[0036]將獲取到的圖片鏈接哈希值與所述過濾圖片列表中記錄的圖片鏈接哈希值進行對比,得到預設清理圖片時長內未被訪問過的圖片鏈接哈希值;
[0037]通過所述目標圖片和對應圖片鏈接哈希值的對應關系和所述未被訪問過的圖片鏈接哈希值,查找出預設清理圖片時長內未被訪問過的圖片鏈接哈希值對應的圖片進行刪除。
[0038]第二方面,本發明實施例提供了一種搜索結果頁面的圖片適應性處理的裝置,包括:
[0039]數據獲取模塊,用于獲取搜索結果的頁面數據,所述搜索結果的頁面數據是根據用戶在特定應用發出的搜索請求所獲取的;
[0040]目標圖片確定模塊,用于根據預設的抓取規則,從搜索結果的頁面數據中確定與特定應用對應的目標圖片,并獲取目標圖片的鏈接信息;
[0041 ]抓取模塊,用于根據目標圖片的鏈接信息,抓取所述目標圖片;
[0042]縮略裁剪模塊,用于根據所述目標圖片的鏈接信息中記錄的所述目標圖片的縮略尺寸和圖片剪裁方式,對所述目標圖片進行縮略剪裁操作,得到與所述特定應用的頁面顯示相適應的縮略圖。
[0043]結合第二方面,本發明實施例提供了上述第二方面的第一種可能的實現方式,其中,所述目標圖片確定模塊,包括:
[0044]圖片信息提取單元,用于從所述搜索結果的頁面數據中提取各個圖片的尺寸信息和所述圖片在搜索結果頁面的位置信息;
[0045]確定單元,用于確定所述圖片尺寸信息符合預設尺寸范圍且所述圖片在搜索結果頁面的位置信息在預設網頁位置的圖片為待抓取圖片;
[0046]圖片過濾單元,用于將預設的過濾圖片列表中未記錄的所述待抓取圖片確定為目標圖片。
[0047]結合第二方面和第二方面的第一種可能的實現方式,本發明實施例提供了上述第二方面的第二種可能的實現方式,其中,所述裝置還包括:
[0048]私鑰確定單元,用于根據所述鏈接信息中攜帶的公鑰,確定與所述公鑰對應的私鑰;
[0049]加密單元,用于通過確定的所述私鑰對所述鏈接信息中攜帶的所述目標圖片的地址信息進行加密操作,生成簽名驗證信息;
[0050]執行單元,用于當生成的所述簽名驗證信息與所述目標圖片攜帶的數字簽名相一致時,觸發抓取模塊抓取所述目標圖片。
[0051]結合第二方面,本發明實施例提供了上述第二方面的第三種可能的實現方式,其中,所述抓取模塊,包括:
[0052]第一判斷單元,用于根據目標圖片的鏈接信息中攜帶的地址信息,判斷在預設抓取時間長度內是否有相同的所述目標圖片已經進行了抓取操作;
[0053]抓取單元,用于當第一判斷單元得到的判斷結果為否時,則通過網絡爬蟲抓取所述目標圖片。
[0054]結合第二方面和第二方面的第三種可能的實現方式,本發明實施例提供了上述第二方面的第四種可能的實現方式,其中,所述抓取模塊,還包括:
[0055]第二判斷單元,用于當所述目標圖片抓取失敗時,判斷距離最近一次抓取所述目標圖片的時長是否達到預設時間長度;
[0056]代理獲取單元,用于當第二判斷單元得到的判斷結果為是時,當抓取失敗的所述目標圖片的重復抓取次數未達到預設閾值時,從預設的代理標識列表中獲取代理標識,代理標識用于指示代理服務器或者代理進程;
[0057]重抓單元,用于利用所述網絡爬蟲,通過獲取到的代理標識對應的代理服務器或者代理進程,對抓取失敗的所述目標圖片進行重新抓取。
[0058]結合第二方面和第二方面,本發明實施例提供了上述第二方面的第五種可能的實現方式,其中,所述裝置還包括:
[0059]負載信息獲取模塊,用于當通過網絡爬蟲抓取到所述目標圖片時,獲取當前各個存儲服務器的負載信息;
[0060]存儲服務器確定模塊,用于根據所述各個存儲服務器的負載信息,從所述各個存儲服務器中確定出負載最小的存儲服務器;
[0061 ]存儲模塊,用于將抓取到的所述目標圖片發送到所述負載最小的存儲服務器進行存儲。
[0062]結合第二方面的第五種可能的實現方式,本發明實施例提供了上述第二方面的第六種可能的實現方式,其中,所述負載信息獲取模塊,包括:
[0063]圖片獲取單元,用于獲取所述網絡爬蟲抓取到的所述目標圖片;
[0064]計算單元,用于對抓取到的所述目標圖片的圖片地址進行哈希計