百度是怎么計算分配抓取流量的呢？

2016-09-13 15:07　來源: 站長資源平臺　瀏覽（1101）人

分享按鈕

　　百度官方說明：百度蜘蛛抓取流量暴增的原因。Spider對網(wǎng)站抓取數(shù)量突增往往給站點帶來很大煩惱，紛紛找平臺想要Baiduspider IP白名單，但實際上BaiduSpider IP會隨時變化，所以并不敢公布出來，擔心站長設(shè)置不及時影響抓取效果。百度是怎么計算分配抓取流量的呢？站點抓取流量暴增的原因有哪些呢？

百度是怎么計算分配抓取流量的呢？

　　總體來說，Baiduspider會根據(jù)站點規(guī)模、歷史上網(wǎng)站每天新產(chǎn)出的鏈接數(shù)量、已抓取網(wǎng)頁的綜合質(zhì)量打分等等，來綜合計算抓取流量，同時兼顧站長在抓取頻次工具里設(shè)置的、網(wǎng)站可承受的最大抓取值。

　　從目前追查過的抓取流量突增的case中，原因可以分為以下幾種：

　　1， Baiduspider發(fā)現(xiàn)站內(nèi)JS代碼較多，調(diào)用大量資源針對JS代碼進行解析抓取

　　2，百度其他部門（如商業(yè)、圖片等）的spider在抓取，但流量沒有控制好

　　3，已抓取的鏈接，打分不夠好，垃圾過多，導致spider重新抓取

　　4，站點被攻擊，有人仿冒百度爬蟲（見下文關(guān)于BaiduSpider）

　　如果站長排除了自身問題、仿冒問題，確認BaiduSpider抓取流量過大的話，可以通過百度的反饋中心（http://zhanzhang.baidu.com/feedback）反饋，注：一定要提供詳細的抓取日志截圖。

　　關(guān)于BaiduSpider

　　如何正確識別Baiduspider移動ua

　　新版移動ua:

　　Mozilla/5.0 (Linux;u;Android4.2.2;zh-cn;)

　　AppleWebKit/534.46 (KHTML,like Gecko)

　　Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

　　PC ua:Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html）

　　之前通過“+http://www.baidu.com/search/spider.html”進行識別的網(wǎng)站請注意！需要修改識別方式，新的正確的識別Baiduspider移動ua的方法如下：

　　1. 通過關(guān)鍵詞“Android”或者“Mobile”來進行識別，判斷為移動訪問或者抓取。

　　2. 通過關(guān)鍵詞“Baiduspider/2.0”,判斷為百度爬蟲。

　　另外需要強調(diào)的是，對于robots封禁，如果封禁的agent是Baiduspider，會對PC和移動同時生效。即，無論是PC還是移動Baiduspider，都不會對封禁對象進行抓取。之所以要強調(diào)這一點，是發(fā)現(xiàn)有些代碼適配站點（同一個url，PC ua打開的時候是PC頁，移動ua打開的時候是移動頁），想通過設(shè)置robots的agent封禁達到只讓移動Baiduspider抓取的目的，但由于PC和移動Baiduspider的agent都是Baiduspider,這種方法是非常不可取的。

　　如何識別百度蜘蛛

　　百度蜘蛛對于站長來說可謂上賓，可是也有站長會發(fā)出這樣的疑問：

　　我們?nèi)绾闻袛喁偪褡ノ覀兙W(wǎng)站內(nèi)容的蜘蛛是不是百度的？

　　其實站長可以通過DNS反查IP的方式判斷某只spider是否來自百度搜索引擎。根據(jù)平臺不同驗證方法不同，如linux/windows/os三種平臺下的驗證方法分別如下：

　　1、在linux平臺下，可以使用hostip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名，非*.baidu.com或*.baidu.jp即為冒充。

　　2、在windows平臺或者IBMOS/2平臺下，可以使用nslookupip命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入nslookupxxx.xxx.xxx.xxx（IP地址）就能解析ip，來判斷是否來自Baiduspider的抓取，Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名，非*.baidu.com或*.baidu.jp即為冒充。

　　3、在macos平臺下，您可以使用dig命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入digxxx.xxx.xxx.xxx（IP地址）就能解析ip，來判斷是否來自Baiduspider的抓取，Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名，非*.baidu.com或*.baidu.jp即為冒充。

　　Baiduspider IP是多少

　　即便很多站長知道了如何判斷百度蜘蛛，仍然會不斷地問“百度蜘蛛IP是多少”。并想將百度蜘蛛所在IP加入白名單，只準白名單下IP對網(wǎng)站進行抓取，避免被采集等行為。

　　百度方面表示，不建議站長這樣做。雖然百度蜘蛛的確有一個IP池，真實IP在這個IP池內(nèi)切換，但無法保證這個IP池整體不會發(fā)生變化。所以，建議站長勤看日志，發(fā)現(xiàn)惡意蜘蛛后放入黑名單，以保證百度的正常抓取。

　　同時，百度方面還強調(diào)：通過IP來分辨百度蜘蛛的屬性是非常可笑的事情，所謂的“沙盒蜘蛛”“降權(quán)蜘蛛”等等是從來都不存在的。

2898站長資源平臺商務貿(mào)易排行榜：http://www.afrimangol.com/webmain/syjj_swmy.htm

【版權(quán)與免責聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ，我們將及時溝通與處理。本站內(nèi)容除了2898站長資源平臺（ www.afrimangol.com ）原創(chuàng)外，其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容，涉及言論、版權(quán)與本站無關(guān)。

網(wǎng)站	權(quán)重	銷量
生活查詢	5	3066
中醫(yī)養(yǎng)生	5	46
河南中華網(wǎng)	7	8
名人錄	6	82
hao12306網(wǎng)站	5	25
家電中華網(wǎng)	5	1
英語網(wǎng)	5	11
hao12306網(wǎng)站	5	7
職教網(wǎng)	5	5
深圳新聞網(wǎng)	5	10

百度是怎么計算分配抓取流量的呢？

上一篇：如何通過借力進行推廣引流獲取精準粉絲

下一篇：如何利用支付寶來做推廣引流？

解鎖社群密碼：從0到1搭建你的專屬部落

TruBit與MoneyGram合作在拉丁美洲推出全球跨境支付服

支付寶提示“當前操作可能存在風險，為保護資金安全，我們中斷了此次操作”怎么辦？

如果公司要求只能認證一個，是認證服務號好還是小程序？

AIGC 平衡 SEO 與用戶體驗的深度解決方案

解鎖社群密碼：從0到1搭建你的專屬部落

TruBit與MoneyGram合作在拉丁美洲推出全球跨境支付服

精準投放廣告平臺：價格低，見效快

一個很多人都在用卻卻不說的網(wǎng)站推廣方法

QQ群快速引流的五大絕招

怎樣建設(shè)網(wǎng)站給企業(yè)做好品牌推廣

網(wǎng)站推廣｜18種免費而且有效的全網(wǎng)推廣方法

消息盒

百度是怎么計算分配抓取流量的呢？

百度是怎么計算分配抓取流量的呢？