百度是怎么計(jì)算分配抓取流量的呢?
百度官方說(shuō)明:百度蜘蛛抓取流量暴增的原因。Spider對(duì)網(wǎng)站抓取數(shù)量突增往往給站點(diǎn)帶來(lái)很大煩惱,紛紛找平臺(tái)想要Baiduspider IP白名單,但實(shí)際上BaiduSpider IP會(huì)隨時(shí)變化,所以并不敢公布出來(lái),擔(dān)心站長(zhǎng)設(shè)置不及時(shí)影響抓取效果。百度是怎么計(jì)算分配抓取流量的呢?站點(diǎn)抓取流量暴增的原因有哪些呢?
總體來(lái)說(shuō),Baiduspider會(huì)根據(jù)站點(diǎn)規(guī)模、歷史上網(wǎng)站每天新產(chǎn)出的鏈接數(shù)量、已抓取網(wǎng)頁(yè)的綜合質(zhì)量打分等等,來(lái)綜合計(jì)算抓取流量,同時(shí)兼顧站長(zhǎng)在抓取頻次工具里設(shè)置的、網(wǎng)站可承受的最大抓取值。
從目前追查過(guò)的抓取流量突增的case中,原因可以分為以下幾種:
1, Baiduspider發(fā)現(xiàn)站內(nèi)JS代碼較多,調(diào)用大量資源針對(duì)JS代碼進(jìn)行解析抓取
2, 百度其他部門(如商業(yè)、圖片等)的spider在抓取,但流量沒(méi)有控制好
3, 已抓取的鏈接,打分不夠好,垃圾過(guò)多,導(dǎo)致spider重新抓取
4, 站點(diǎn)被攻擊,有人仿冒百度爬蟲(見下文關(guān)于BaiduSpider)
如果站長(zhǎng)排除了自身問(wèn)題、仿冒問(wèn)題,確認(rèn)BaiduSpider抓取流量過(guò)大的話,可以通過(guò)百度的反饋中心(http://zhanzhang.baidu.com/feedback)反饋,注:一定要提供詳細(xì)的抓取日志截圖。
關(guān)于BaiduSpider
如何正確識(shí)別Baiduspider移動(dòng)ua
新版移動(dòng)ua:
Mozilla/5.0 (Linux;u;Android4.2.2;zh-cn;)
AppleWebKit/534.46 (KHTML,like Gecko)
Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
PC ua:Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
之前通過(guò)“+http://www.baidu.com/search/spider.html”進(jìn)行識(shí)別的網(wǎng)站請(qǐng)注意!需要修改識(shí)別方式,新的正確的識(shí)別Baiduspider移動(dòng)ua的方法如下:
1. 通過(guò)關(guān)鍵詞“Android”或者“Mobile”來(lái)進(jìn)行識(shí)別,判斷為移動(dòng)訪問(wèn)或者抓取。
2. 通過(guò)關(guān)鍵詞“Baiduspider/2.0”,判斷為百度爬蟲。
另外需要強(qiáng)調(diào)的是,對(duì)于robots封禁,如果封禁的agent是Baiduspider,會(huì)對(duì)PC和移動(dòng)同時(shí)生效。即,無(wú)論是PC還是移動(dòng)Baiduspider,都不會(huì)對(duì)封禁對(duì)象進(jìn)行抓取。之所以要強(qiáng)調(diào)這一點(diǎn),是發(fā)現(xiàn)有些代碼適配站點(diǎn)(同一個(gè)url,PC ua打開的時(shí)候是PC頁(yè),移動(dòng)ua打開的時(shí)候是移動(dòng)頁(yè)),想通過(guò)設(shè)置robots的agent封禁達(dá)到只讓移動(dòng)Baiduspider抓取的目的,但由于PC和移動(dòng)Baiduspider的agent都是Baiduspider,這種方法是非常不可取的。
如何識(shí)別百度蜘蛛
百度蜘蛛對(duì)于站長(zhǎng)來(lái)說(shuō)可謂上賓,可是也有站長(zhǎng)會(huì)發(fā)出這樣的疑問(wèn):
我們?nèi)绾闻袛喁偪褡ノ覀兙W(wǎng)站內(nèi)容的蜘蛛是不是百度的?
其實(shí)站長(zhǎng)可以通過(guò)DNS反查IP的方式判斷某只spider是否來(lái)自百度搜索引擎。根據(jù)平臺(tái)不同驗(yàn)證方法不同,如linux/windows/os三種平臺(tái)下的驗(yàn)證方法分別如下:
1、在linux平臺(tái)下,可以使用hostip命令反解ip來(lái)判斷是否來(lái)自Baiduspider的抓取。Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。
2、在windows平臺(tái)或者IBMOS/2平臺(tái)下,可以使用nslookupip命令反解ip來(lái)判斷是否來(lái)自Baiduspider的抓取。打開命令處理器輸入nslookupxxx.xxx.xxx.xxx(IP地址)就能解析ip,來(lái)判斷是否來(lái)自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。
3、在macos平臺(tái)下,您可以使用dig命令反解ip來(lái)判斷是否來(lái)自Baiduspider的抓取。打開命令處理器輸入digxxx.xxx.xxx.xxx(IP地址)就能解析ip,來(lái)判斷是否來(lái)自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。
Baiduspider IP是多少
即便很多站長(zhǎng)知道了如何判斷百度蜘蛛,仍然會(huì)不斷地問(wèn)“百度蜘蛛IP是多少”。并想將百度蜘蛛所在IP加入白名單,只準(zhǔn)白名單下IP對(duì)網(wǎng)站進(jìn)行抓取,避免被采集等行為。
百度方面表示,不建議站長(zhǎng)這樣做。雖然百度蜘蛛的確有一個(gè)IP池,真實(shí)IP在這個(gè)IP池內(nèi)切換,但無(wú)法保證這個(gè)IP池整體不會(huì)發(fā)生變化。所以,建議站長(zhǎng)勤看日志,發(fā)現(xiàn)惡意蜘蛛后放入黑名單,以保證百度的正常抓取。
同時(shí),百度方面還強(qiáng)調(diào):通過(guò)IP來(lái)分辨百度蜘蛛的屬性是非??尚Φ氖虑椋^的“沙盒蜘蛛”“降權(quán)蜘蛛”等等是從來(lái)都不存在的。
2898站長(zhǎng)資源平臺(tái)商務(wù)貿(mào)易排行榜:http://www.afrimangol.com/webmain/syjj_swmy.htm

商機(jī)加盟
更多友鏈買賣
更多網(wǎng)站 | 權(quán)重 | 銷量 |
---|---|---|
伍品網(wǎng) | 4 | 8 |
家電中華網(wǎng) | 5 | 1 |
大寶導(dǎo)航網(wǎng) | 5 | 104 |
茶食尚 | 6 | 6 |
迅蛙網(wǎng) | 6 | 4 |
五七查工具 | 6 | 34 |
yy分類目錄 | 6 | 100 |
XDA智能手機(jī)網(wǎng) | 6 | 29 |
組詞典 | 8 | 1 |
北京時(shí)間 | 5 | 5 |
熱門文章
-
1
Manus內(nèi)測(cè)邀請(qǐng)碼如何申請(qǐng)?需要什么條件才能申請(qǐng)?
-
2
DeepSeek在互聯(lián)網(wǎng)平臺(tái)上是如何運(yùn)用的?
-
3
在科技領(lǐng)域的運(yùn)用對(duì)DeepSeek是如何評(píng)價(jià)的?
-
4
DeepSeek與SEO優(yōu)化結(jié)合有哪些策略?
-
5
如果公司要求只能認(rèn)證一個(gè),是認(rèn)證服務(wù)號(hào)好還是小程序?
-
6
AIGC 平衡 SEO 與用戶體驗(yàn)的深度解決方案
-
7
支付寶提示“當(dāng)前操作可能存在風(fēng)險(xiǎn),為保護(hù)資金安全,我們中斷了此次操作”怎么辦?
相關(guān)資訊