百度spider與死鏈的愛恨情仇
百度spider與死鏈的愛恨情仇:死鏈直接關(guān)系到網(wǎng)站的抓取收錄和流量轉(zhuǎn)化,因而對站長們而言及時清理提交死鏈是至關(guān)重要的。百度蜘蛛對于站長來說可謂上賓,可是我們判斷瘋狂抓我們網(wǎng)站內(nèi)容的蜘蛛是不是百度的?
我們可以通過DNS反查IP的方式判斷spider是否來自百度。根據(jù)平臺不同驗證方法各不相同,如linux/windows/os三種平臺下的驗證方法分別如下:
1、在linux平臺下,您可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
2、在windows平臺或者IBM OS/2平臺下,您可以使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
3、 在mac os平臺下,您可以使用dig 命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
已被百度抓取的死鏈我們該怎么辦?
最快最有效的方法是通過百度站長平臺死鏈提交工具(地址:http://zhanzhang.baidu.com/badlink/)進行處理,提交方式有兩種,一種是規(guī)則提交,一種是死鏈文件提交。提交之后,spider為了驗證鏈接是否真的死掉,需要抓一部分回來驗證,所以spider不會立即停止對死鏈接的抓取。
如果你網(wǎng)站死鏈特別多,而且既沒有沒有設置robots屏蔽,也沒有向百度提交的話,可能會占用你網(wǎng)站大量正常鏈接抓取配額,導致正常內(nèi)容無法抓取收錄,對我們的站點還是有影響的。
目前百度支持協(xié)議死鏈、內(nèi)容死鏈和跳轉(zhuǎn)死鏈,其中最效果最好的是協(xié)議死鏈。
百度標準死鏈官方文檔:
第一,協(xié)議死鏈:協(xié)議死鏈是指通過HTTP協(xié)議狀態(tài)碼明確表示網(wǎng)頁已無閱讀價值。HTTP協(xié)議狀態(tài)碼很多,但百度協(xié)議死鏈首推404,即未找到文件。請盡量不要用其它狀態(tài)碼來代表死鏈。
第二,內(nèi)容死鏈:內(nèi)容死鏈主要是由網(wǎng)站自身變化引起的,網(wǎng)頁可以正常打開未發(fā)生跳轉(zhuǎn),但頁面內(nèi)容對爬蟲來說沒有收錄價值,對用戶來說也沒有參考價值,如帖子被刪除、內(nèi)容已轉(zhuǎn)移、空間被關(guān)閉、信息已過期、交易已關(guān)閉等。在這樣沒有價值信息的網(wǎng)頁上,網(wǎng)站應該在明顯位置直接給予提示文字,如:
·頁面不存在(網(wǎng)頁不存在)
·內(nèi)容已轉(zhuǎn)移
·帖子已刪除
·域名過期或出售
·空間被關(guān)閉
·網(wǎng)站要備案
·信息已過期
·交易已關(guān)閉
第三,跳轉(zhuǎn)死鏈:跳轉(zhuǎn)死鏈是指網(wǎng)站將無閱讀價值的頁面統(tǒng)一跳轉(zhuǎn)到某一個頁面,如前一級目錄面、首頁等等,跳轉(zhuǎn)前后的兩個網(wǎng)頁主體內(nèi)容不同,不存在可替代的關(guān)系。