在了解百度是怎樣抓取網站的有關知識之前,在互聯網這門科學里,URL被定義為每個頁面的入口地址,搜索引擎的內容抓取程序就通過這些URL列表抓取到頁面的,網站制作抓取程序不斷的從這些頁面中獲取URL資源,同時將這些頁面存儲在自己的服務器里。這樣,搜索引擎就可以從互聯網中獲取到足夠的頁面。
URL是整個網站的入口,搜索引擎可以通過域名進入網站,發掘URL資源;也可以通過別人的URL地址進入網站并抓取資源。換言之搜索引擎在互聯網中抓取頁面的首要義務就是要有龐大的域名列表,網站制作想搜索引擎收錄, 首要條件就是參與搜索引擎的域名列表,不過用此辦法搜索引擎只會活期進行抓取并更新,這種做法比較被動,從域名提交網站被收錄所花費的時間也很長。
而讓百度抓取程序通過別的網站上的URL發現我們的網站,網站制作從而實現對網站的收錄,這種辦法主動權在我們手上,時間也會更短。搜索引擎可以建立龐大的域名列表、頁面URL列表并貯存足夠多的原始頁面。在搜索引擎中要獲取絕對重要頁面,就觸及到了搜索引擎的頁面收錄方式,網站制作頁面收錄的方式的制定取決于搜索引擎對網絡結構的了解。
網頁的收錄和抓取都是從網站的首頁開始, 網站制作抓取首頁上所有銜接指向的頁面, 構成頁面集合A,并剖析出A中所有頁面中的鏈接:在跟蹤這些鏈接抓取下一層的頁面,再從深層頁面,直至滿足某個設定的條件才中止抓取進程深度優先與廣度優先的抓取方式相反,深度優先首先跟蹤淺層頁面中的某一銜接后逐步抓取深層頁面,直至抓完最深層的頁面才返回淺層頁面再跟蹤其另一鏈接,網站制作繼續向深層頁面抓取。 |