專利名稱::一種wap網站在線網頁轉換方法及裝置的制作方法
技術領域:
:本發明涉及計算機網頁轉換領域,尤其涉及ー種WAP網站在線網頁轉換方法及裝置。
背景技術:
:目前通過移動終端上網是ー個流行的趨勢,新型智能移動終端都采用的瀏覽器是ー個HTML(HyperTextMark-upLanguage,超文本標記語言)瀏覽器,然而上述智能移動終端所采用的HTML瀏覽器以及傳統的用在計算機終端的HTML瀏覽器(IE,Firefox,chrome),都不能瀏覽傳統的為非智能移動終端設計的WML移動終端網頁,而只能瀏覽HTML格式的網頁。而現在非智能移動終端仍然占到市場主流,各大網站提供商都針對非智能移動終端提供了WML(WirelessMarkuplanguage,無線標記語言)格式的網頁,并建立了相對應的WAP(WirelessApplicationProtocol,無線應用通訊協議)站點。隨著用戶的增加,WAP網站的質量和WML網頁的數量越來越豐富,如果新型智能移動終端和無線計算機終端仍不能瀏覽WAP網站中的WML類型的網頁,這樣就使新型智能移動終端和無線計算機終端的上網服務受到限制,并且造成原有WAP資源的浪費。
發明內容為了解決上述問題,本發明的實施例的ー種目的是提供ー種WAP網站在線網頁轉換方法,能夠實現智能移動終端以及計算機終端訪問WAP網站資源,充分利用更多的網絡資源。因此,為了實現上述目的,本發明提供ー種WAP網站在線網頁轉換方法,包括以下步驟S1獲取用戶訪問的WAP網站地址;S2下載所述WAP網站地址對應的WML網頁;S3解析所述WML網頁并將其轉化為HTML網頁,將所述HTML網頁結果返回給所述用戶。根據本發明的一個實施例,所述步驟S3具體為S31將所述WML網頁解析生成文檔結構DOM樹;S32遍歷所述DOM樹結構,尋找WML與HTML不同的元素,依據元素的語義對尋找到元素進行語法轉換,在DOM樹中將其轉換為對應的HTML網頁節點;S33然后將所述處理后的DOM樹轉換成HTML格式的網頁,返回給所述用戶。根據本發明的一個實施例,在步驟S31之前還包括去除WML網頁轉義符標記的步ο根據本發明的一個實施例,上述所述步驟S32還包括以下步驟處理麗L網頁標簽的步驟若尋找到的元素中不具有HTML網頁中所必須有的標簽,則添加HTML網頁中所必須有的標簽,以及若尋找到的元素中具有在HTML網頁內容沒有相對應的標簽,則忽略掉該標簽,保留標簽中的內容;處理地址的步驟遍歷所述DOM樹中所有URL地址,將所述URL字符串編碼轉換為utf_8編碼格式,以及遍歷所述DOM樹中的圖片地址,將其轉換為能夠直接訪問圖片的絕對地址。根絕本發明的一個實施例,所述步驟S2具體為S21對所述網站地址進行編碼轉換,將所述網站地址的編碼轉換為utf-8編碼;S22將所述網站地址中包含的有關代理服務器信息的地址字符進行轉換,使所述網站地址成為所要訪問網站的絕對地址;S23根據http協議判斷給定網頁地址的網頁是否能下載,是則下載所述網站地址對應的網頁內容,否則向用戶返回下載失敗的信息。本發明的另一目的是提供ー種WAP網站在線網頁轉換裝置,所述裝置包括獲取模塊,用于獲取用戶訪問的WAP網站地址;下載模塊,用于下載所述WAP網站地址對應的WML網頁;解析模塊,用于解析所述WML網頁并將其轉化為HTML網頁,并將所述HTML網頁結果返回給所述用戶。所述解析模塊還包括結構轉換單元,用于將所述WML網頁解析生成文檔結構DOM樹;遍歷單元,用于遍歷所述DOM樹結構,尋找不同的展示元素,根據不同的語義將其轉換為對應的HTML網頁節點;轉換單元,用于將處理后的DOM樹轉換成HTML格式的網頁,返回給所述用戶。所述下載模塊還包括編碼轉換單元,用于對所述網站地址進行編碼轉換,將所述網站地址的編碼轉換為utf-8編碼;地址轉換単元,用于將所述網站地址中包含的有關代理服務器信息的地址字符進行轉換,使所述網站地址成為所要訪問網站的絕對地址;下載判斷単元,用于根據http協議判斷給定網頁地址的網頁是否能下載,是則下載所述網站地址對應的網頁內容,否則向用戶返回下載失敗的信息。根據本發明的實施例,本發明能夠在用戶無需安裝任何軟件情況下,直接訪問WAP網站的WML網頁,充分利用更多現有WAP網站的網絡資源。圖1為根據本發明的一種實施例的WAP網站在線網頁轉換方法的流程圖;圖2為根據本發明的一種實施例的下載WML網頁方法的流程圖;圖3為根據本發明的一種實施例的解析所述WML網頁將其轉換為html網頁方法的流程圖。具體實施例方式下面將詳細描述本發明的具體實施例。應當注意,這里描述的實施例只用于舉例說明,并不用于限制本發明。為了更便于理解本發明,在說明本發明的實施例之前,先說明一下WML和HTML語言格式各自的特點WML(WirelessMarkupLanguage,無線標記語言)是ー種從HTML繼承而來的標記語言,但是WML基于XML因此它較HTML更嚴格。WML被用來創建可顯示在WAP瀏覽器中的頁面。而HTML(HyperTextMark-upLanguage)即超文本標記語言或超文本鏈接標示語言,是目前計算機網絡上應用最為廣泛的語言,也是構成網頁文檔的主要語言,HTML文本是由HTML命令組成的描述性文本,HTML命令可以說明文字、圖形、動畫、聲音、表格、鏈接等;因而WML是ー套不同于HTML的語言,具有不同的語法和標簽以及獨特的語義,并且其所支持的標簽數量要小于HTML語言所支持的標簽數量,從而WML僅用于WAP站點的網頁顯示,而HTML一般是應用于計算機或者智能移動終端的HTML瀏覽器。由于上述不同,因而在智能移動終端上的HTML瀏覽器無法瀏覽WAP站點所提供的WML網頁,但是WML和HTML同屬于XML家族,其具有共通的語義和許多相似的語法。因而,本發明的實施例提出了在移動終端上通過HTML瀏覽器直接訪問WAP網站的WML網頁的一種技術方案,在移動終端訪問WAP網站時通過將麗L網頁轉換成HTML網頁,從而向用戶提供HTML網頁瀏覽,使智能手機終端的用戶得到更多的網絡資源。在本發明中,用戶的訪問請求被代理服務器重定向到轉化服務,轉化服務根據用戶訪問的URL去取得各個WAP網站的網頁。取得WML網頁后,然后通過本發明的WML到HTML轉換器進行轉換,該轉換器的核心算法為對WML文檔進行語法檢查與語義解釋,通過棧操作和特殊標記的模塊化的處理,完成WML語言到語法嚴格的HTML語言的翻譯轉換。具體地,如圖1所示,本發明的ー種WAP網站在線網頁轉換方法,包括以下步驟S1取得用戶訪問的WAP網站地址;由于智能移動終端或者無線上網計算機終端通過HTML瀏覽器訪問WAP網站吋,不能直接獲取到WAP網站所提供的網頁,需要先通過本發明的WAP網頁轉化服務,才能獲取到所瀏覽的HTML網頁,因而在轉化服務的第一步驟就需要獲取該用戶想訪問的是哪個WAP網站地址。在上述步驟之后,進行步驟S2下載該WAP網站地址對應的WML網頁在該步驟中,如圖2所示,在下載WML網頁時還包括如下步驟S21對網站url地址進行編碼轉換為了防止由于WAP網站地址編碼不統一而造成在后續下載過程中的亂碼,比如有的網站地址采用gb2312編碼,有的網站地址采用utf-8編碼,因而需要將用戶給定的網站地址url轉換為utf-8編碼格式;S22:將網站地址中包含的有關代理服務器信息的地址字符進行轉換,使所述網站地址成為所要訪問網站的絕對地址,比如將代理服務器中的地址字符“_Xim_jie_”轉換為“&”;S23根據http協議判斷給定網頁地址url的網頁是否能下載,是則下載該url對應的網頁內容,否則向用戶返回下載失敗的提示信息。經過這步驟之后,用戶所要訪問的WML網頁已經被下載到移動終端的代理服務器中,然后在該服務器中進行下一步驟的WML到HTML轉換。S3解析所述WML網頁并將其轉化為HTML網頁,將所述HTML網頁結果返回給所述用戶。在步驟S3中,如圖3所示,可以通過先將原來的WML網頁生成DOM樹結構,然后遍歷所述DOM樹,對元素進行語法檢查,尋找WML與HTML不同的元素,依據元素的語義對尋找到元素進行語法轉換,在DOM樹中將其轉換為對應的HTML網頁節點。優選地,可以通過HtmlCleaner工具(文檔解析器)將WML網頁內容轉換為DOM結構。優選地,在解析WML網頁生成DOM樹結構之前需要將WML網頁中存在的轉義符去除,比如“\t“\r”“\n”等。為了理解上述步驟,我們有必要對WML的元素和標簽予以簡單說明。與HTML類似,WML的主要語法也是元素和標簽。元素是符合DTD(文檔類型定義)的文檔組成部分,如title(文檔標題)、IMG(圖像)、table(表格)等等。WML使用標簽來規定元素的屬性和它在文檔中的位置。標簽使用單書名號括起來,即采用“〈標簽名〉”的形式。標簽分單獨出現的標簽和成對出現的標簽兩種。大多數標簽是成對出現的,由首標簽和尾標簽組成。首標簽和尾標簽又分別稱為起始標簽和終止標簽。首標簽的格式為“〈元素名>”,尾標簽的格式為“</元素名>”。成對標簽用于規定元素所涵的范圍,比如<b>和</b>標簽用于界定黑體字的范圍,也就是說,<b>和</b>之間的部分采用黑體字顯示。単獨標簽的格式為“く元素名/>”,它的作用是在相應的位置插入元素。如<br/>標簽表示在該標簽所在位置插入ー個換行符。也正如前面所述的,WML網頁的標簽沒有HTML網頁的標簽數量豐富,并且HTML網頁的結構包括頭部(head)、主體(body)兩大部分,因而在遍歷所述WML網頁的DOM樹結構時,對于沒有具有HTML相應標簽的元素,為其添加相應的標簽,比如WML網頁頭部沒有title標簽,就需要為該頭部信息添加<title>和〈/title〉。同吋,在遍歷所述WML網頁的DOM樹結構吋,若遇到不同的語法中沒有相互對應的標簽時,則忽略該標簽,而將其標簽中的內容提上來。本步驟是S3中還包括處理所述DOM樹結構中的所有地址,所述對地址的處理包括下述處理過程A、將遍歷到的所有url地址進行編碼方式的處理轉換,比如可以將所有地址的編碼方式都統ー轉換為utf-8;B、將遍歷到的所有picture地址轉換為能夠直接訪問的絕對地址,比如原來WML頁面的picture元素中具有鏈接"test/a.jpg”,鏈接上沒有帶網站域名,不進行處理的話就無法訪問圖片;C、將WML頁面中包含的鏈接轉換為能提供轉化服務的代理服務器的相對地址,比如有部分文字中具有鏈接“//test,com/test.WML",如果不進行處理的話,用戶在頁面直接點擊該鏈接就直接跳到該網站的網頁上了,而這些網頁上的WML格式是無法訪問到的,因此要將該鏈接進行處理,先連接到本發明所適用的代理服務器地址上,然后服務器接收到用戶所需要的地址后,實時下載下來并將其轉換為HTML格式,然后再返回給用戶,比如將上面的鏈接“//test,com/test.WML”修改成“//代理服務器的地址.com/process,html?url=“//test.com/test.WML"。經過上述解析處理后的WML網頁的DOM樹結構,然后將其轉換為HTML格式的網頁,就可返回給用戶一個能用HTML瀏覽器瀏覽的HTML網頁。因此,作為步驟S3的一個實施例,具體包括如下步驟(1)去除如“\t”"\r"“\n”等轉義符標記;(2)結構轉換,即將WML頁面內容轉換為DOM樹結構;(3)處理標簽,可以添加WML網頁中所不存在而在html網頁中需要的標簽,比如添加<title>和</title>標簽;也可將在HTML網頁內容沒有相應的標簽忽略掉;(4)處理地址,即遍歷DOM樹中所有地址,對其進行處理,處理包括編碼轉換處理和地址轉換處理,其中所述編碼轉換處理是將地址URL的編碼轉換為utf-8編碼格式;其中地址轉換處理為頁面包含的鏈接和picture鏈接的轉換處理;(5)將上述處理后的DOM樹轉換成HTML格式的網頁,返回給用戶。由于在用戶實時訪問時,本發明直接提供WAP網站的WML網頁轉化后的HTML網頁,所以本發明能夠提供高效的實時數據訪問,并且在用戶無需安裝任何軟件情況下,能直接訪問WAP網站的WML網頁,充分利用更多的網絡資源。相應于本發明所描述的方法,本發明還提供ー種WAP網站在線網頁轉換裝置,包括獲取模塊,用于獲取用戶訪問的WAP網站地址;下載模塊,用于下載所述WAP網站地址對應的WML網頁;解析模塊,用于解析所述WML網頁并將其轉化為HTML網頁,并將所述HTML網頁結果返回給所述用戶。其中所述解析模塊還包括結構轉換單元,用于將所述WML網頁解析生成文檔結構DOM樹;遍歷單元,用于遍歷所述DOM樹結構,對元素進行語法檢查,尋找WML與HTML不同的元素,依據元素的語義對尋找到元素進行語法轉換,在DOM樹中將其轉換為對應的HTML網頁節點;轉換單元,用于將處理后的DOM樹轉換成HTML格式的網頁,返回給所述用戶。其中所述下載模塊還包括編碼轉換單元,用于對所述網站地址進行編碼轉換,將所述網站地址的編碼轉換為utf-8編碼;地址轉換単元,用于將所述網站地址中包含的有關代理服務器信息的地址字符進行轉換,使所述網站地址成為所要訪問網站的絕對地址;下載判斷単元,用于根據http協議判斷給定網頁地址的網頁是否能下載,是則下載所述網站地址對應的網頁內容,否則向用戶返回下載失敗的提示信息。雖然已參照幾個典型實施例描述了本發明,但應當理解,所用的術語是說明和示例性、而非限制性的術語。由于本發明能夠以多種形式具體實施而不脫離發明的精神或實質,所以應當理解,上述實施例不限于任何前述的細節,而應在隨附權利要求所限定的精神和范圍內廣泛地解釋,因此落入權利要求或其等效范圍內的全部變化和改型都應為隨附權利要求所涵蓋。權利要求1.ー種WAP網站在線網頁轉換方法,其特征在干,所述方法包括以下步驟51獲取用戶訪問的WAP網站地址;52下載所述WAP網站地址對應的WML網頁;53解析所述WML網頁并將其轉化為HTML網頁,將所述HTML網頁結果返回給所述用戶。2.根據權利要求1所述的方法,其特征在干,所述步驟S3具體為531將所述WML網頁解析生成文檔結構DOM樹;532遍歷所述DOM樹結構,尋找WML與HTML不同的元素,依據元素的語義對尋找到元素進行語法轉換,在DOM樹中將其轉換為對應的HTML網頁節點;533然后將處理后的DOM樹轉換成HTML格式的網頁,返回給所述用戶。3.根據權利要求2所述的方法,其特征在干,在步驟S31之前還包括去除所述WML網頁轉義符標記的步驟。4.根據權利要求2所述的方法,其特征在干,所述步驟S32還包括以下步驟處理WML網頁標簽的步驟若尋找到的元素中不具有HTML網頁中所必須有的標簽,則添加HTML網頁中所必須有的標簽,以及若尋找到的元素中具有在HTML網頁內容沒有相對應的標簽,則忽略掉該標簽,保留標簽中的內容;處理地址的步驟遍歷所述DOM樹中所有URL地址,將所述URL地址編碼轉換為utf_8編碼,以及遍歷所述DOM樹中的圖片地址,將其轉換為能夠直接訪問圖片的絕對地址。5.根據權利要求1所述的方法,其特征在干,所述步驟S2具體為521對所述網站地址進行編碼轉換,將所述網站地址的編碼轉換為utf-8編碼;522將所述網站地址中包含的有關代理服務器信息的地址字符進行轉換,使所述網站地址成為所要訪問網站的絕對地址;523根據http協議判斷給定網頁地址的網頁是否能下載,是則下載所述網站地址對應的網頁內容,否則向用戶返回下載失敗的提示信息。6.ー種WAP網站在線網頁轉換裝置,其特征在干,所述裝置包括獲取模塊,用于獲取用戶訪問的WAP網站地址;下載模塊,用于下載所述WAP網站地址對應的WML網頁;解析模塊,用于解析所述WML網頁并將其轉化為HTML網頁,并將所述HTML網頁結果返回給所述用戶。7.根據權利要求6所述的裝置,其特征在干,所述解析模塊還包括結構轉換單元,用于將所述WML網頁解析生成文檔結構DOM樹;遍歷單元,用于遍歷所述DOM樹結構,尋找WML與HTML不同的元素,依據元素的語義對尋找到元素進行語法轉換,在DOM樹中將其轉換為對應的HTML網頁節點;轉換單元,用于將處理后的DOM樹轉換成HTML格式的網頁,返回給所述用戶。8.根據權利要求6所述的裝置,其特征在干,所述下載模塊還包括編碼轉換單元,用于對所述網站地址進行編碼轉換,將所述網站地址的編碼轉換為utf-8編碼;地址轉換単元,用于將所述網站地址中包含的有關代理服務器信息的地址字符進行轉換,使所述網站地址成為所要訪問網站的絕對地址;下載判斷単元,用于根據http協議判斷給定網頁地址的網頁是否能下載,是則下載所述網站地址對應的網頁內容,否則向用戶返回下載失敗的信息。全文摘要本發明公開了一種WAP網站在線網頁轉換方法及其裝置,該方法包括S1獲取用戶訪問的WAP網站地址;S2下載所述WAP網站地址對應的WML網頁;S3解析所述WML網頁并將其轉化為HTML網頁,將所述HTML網頁結果返回給所述用戶。本發明能夠在用戶無需安裝任何軟件情況下,直接訪問WAP網站的WML網頁,充分利用更多現有WAP網站的網絡資源。文檔編號G06F17/30GK102567404SQ20101061798公開日2012年7月11日申請日期2010年12月31日優先權日2010年12月31日發明者賈海祿申請人:北京瑞信在線系統技術有限公司