目前百度spider抓取新鏈接的途徑有兩(liǎng)個,一是主動出擊發(fā)現抓取,二就(jiù)是從百度站長(cháng)平台的鏈接提交工具中獲取數據,其中通過(guò)主動推送功能(néng)“收”上來的數據最受百度spider的歡迎。對(duì)于站長(cháng)來說,如果鏈接很長(cháng)時間不被(bèi)收錄,建議嘗試使用主動推送功能(néng),尤其是新網站,主動推送首頁數據,有利于内頁數據的抓取。
那麼(me)同學(xué)們要問了,爲什麼(me)我提交了數據還(hái)是遲遲在線上看不到展現呢?那涉及的因素可就(jiù)多了,在spider抓取這(zhè)個環節,影響線上展現的因素有:
1、網站封禁。
你别笑,真的有同學(xué)一邊封禁著(zhe)百度蜘蛛,一邊向(xiàng)百度狂交數據,結果當然是無法收錄。
2、質量篩選。
百度spider進(jìn)入3.0後(hòu),對(duì)低質内容的識别上了一個新台階,尤其是時效性内容,從抓取這(zhè)個環節就(jiù)開(kāi)始進(jìn)行質量評估篩選,過(guò)濾掉大量過(guò)度優化等頁面(miàn),從内部定期數據評估看,低質網頁比之前下降62%。
3、抓取失敗。
抓取失敗的原因很多,有時你在辦公室訪問完全沒(méi)有問題,百度spider卻遇到麻煩,站點要随時注意在不同時間地點保證網站的穩定性。
4、配額限制。
雖然我們正在逐步放開(kāi)主動推送的抓取配額,但如果站點頁面(miàn)數量突然爆發(fā)式增長(cháng),還(hái)是會(huì)影響到優質鏈接的抓取收錄,所以站點在保證訪問穩定外,也要關注網站安全,防止被(bèi)黑注入。