QQ在線客服

當前位置:首頁> 建站> 搜索優(yōu)化

網(wǎng)站優(yōu)化:搜索引擎蜘蛛抓取網(wǎng)頁數(shù)據(jù)

2016-08-18 16:50 來源: 站長資源平臺 瀏覽(1210)人   

  網(wǎng)站SEO優(yōu)化:搜索引擎蜘蛛如何抓取網(wǎng)頁數(shù)據(jù)?我們做網(wǎng)站SEO優(yōu)化都想方設(shè)法讓搜索蜘蛛進入自己的網(wǎng)站進行爬行抓取,從而提高網(wǎng)頁的收錄,但是蜘蛛究竟是如何抓取網(wǎng)站數(shù)據(jù)的呢?


網(wǎng)站優(yōu)化:搜索引擎蜘蛛抓取網(wǎng)頁數(shù)據(jù)


    今天和大家分享下,搜索引擎蜘蛛是如何爬取我們網(wǎng)站數(shù)據(jù)的。在搜索引擎蜘蛛系統(tǒng)中,待爬取URL隊列是決定性因素。蜘蛛爬取的網(wǎng)站頁面URL順序排列,形成一個隊列結(jié)構(gòu),調(diào)整程序時每次從隊列開頭取出某個URL單元,發(fā)送給網(wǎng)頁下載器頁面內(nèi)容,這樣每個新下載的頁面中就包含了上個URL單元,新加載的頁面會追加到待爬取URL隊列的末尾,如此形成一個循環(huán),幫助百度蜘蛛爬行抓取網(wǎng)頁信息。那么待爬取URL隊列中的頁面URL 的排列順序是怎樣確定的呢?下面我們來進行更深入的分析。


  第一、寬度優(yōu)化遍歷策略寬度優(yōu)化遍歷策略是一種簡單易行而且比較原始的遍歷方法,從搜索引擎蜘蛛一出現(xiàn)就廣為流傳使用了。隨著網(wǎng)站優(yōu)化技術(shù)的進步,新提出的眾多抓取策略往往也是以這種方法為基礎(chǔ)加以改進,但值得注意到的是,這種原始策略是一種相當有效的方法,甚至要比很多新技術(shù)更加好用,所以至今這種方法仍被許多爬蟲系統(tǒng)優(yōu)先采用。網(wǎng)頁爬取順序基本按照網(wǎng)頁的重要性排列。其用法類似于H標簽,重要的優(yōu)先檢索,主次分明。實際上寬度優(yōu)化遍歷策略隱含了一些網(wǎng)頁優(yōu)化級假設(shè)。


  第二、非完全pagerank策略PageRank是一種谷歌的專有算法,用來衡量特定網(wǎng)頁相對于搜索引擎網(wǎng)頁的重要性。PageRank算法也可以套用在URL優(yōu)化級排序上。但是不同的是,PageRank是個整體性算法,也就是說當所有網(wǎng)頁下載完成后,其計算結(jié)果才是可靠的,而搜索引擎蜘蛛爬取網(wǎng)頁時,在運行過程中只能看到一部分頁面,這樣就無法獲得可靠的PageRank得分。


  第三、OPIC策略( Online Page Importance Computation)OPIC直譯為“在線頁面重要性計算”,可以看做是PageRank算法的一種改進。在算法開始之前,每個網(wǎng)站頁面都要給予相同的現(xiàn)金,每當下載了某個頁面P后,P頁面就將自己擁有的現(xiàn)金根據(jù)鏈接走向平均分配給下面的頁面,最終將自己的現(xiàn)金清空。而對于待爬取URL隊列中的網(wǎng)頁,則根據(jù)頁面所擁有的現(xiàn)金金額多少排序,優(yōu)先下載現(xiàn)金最充裕的網(wǎng)頁。


  OPIC策略與PageRank思想基本一致,區(qū)別在于:PageRank每次都需要迭代計算,而OPIC策略則省去了迭代過程,加快了運算速度。


    2898站長資源平臺網(wǎng)站排行榜:http://www.afrimangol.com/webmain.htm 


【版權(quán)與免責聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ,我們將及時溝通與處理。 本站內(nèi)容除了2898站長資源平臺( www.afrimangol.com )原創(chuàng)外,其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容,涉及言論、版權(quán)與本站無關(guān)。