說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732
全網監測海量數據按需發布監測預警
實時把握輿情動態精準追溯信息源頭
服務器日志除了找404的問題,找異常ip、看蜘蛛爬取的次數、是否爬取過重要頁面以外,相信還有很多的作用。
某在想著怎么快速解決手游站收錄的時候,突發奇想,記得以前看過某個人對于百度蜘蛛字段的分析,所以想用這個東西加以分析一下,看一下目前手游站百度蜘蛛抓取的情況到底是怎樣的。
具體的字段區分看這里,但我不知道是否還有用http://www.aiwom.net/post/baiduspider.html
但我想大家只要記錄下以下的4點摘要OK了
123.125.71.*
低權重匯總:抓取內頁收錄的,權重較低,爬過此段的內頁文章暫時被收錄但不放出來(意思也是說待定),因不是原創或采集文章
220.181.108.*
權重蜘蛛匯總:主要是抓取首頁占80%,內頁占30%,這此爬過的文章或首頁,24小時內放出來和隔夜快照的!
220.181.68.*
沙盒:每天這個IP段只增不減很有可能進沙盒或K站
61.135.168.*
抓取圖片的百度蜘蛛
現在言歸正傳,在對比了這位大大總結的內容之后,再匹配日志查看,有幾個論證和猜想:
爬取收錄上:
1、220.181.108.*字段開頭的確實是高權重ip,這點應該沒有大問題。但高權重的字段不表示一定會收錄,猜測可能和目錄的新舊還是有一定關系的,舊有目錄在高權重的ip下一爬基本都會隔天收錄,甚至有些當天放出來;但如果是新加了的目錄層級,貌似即使蜘蛛爬過了也不會馬上放出來,這個周期目前看起來對于新站來說,是很漫長的過程(具體多漫長,我猜測1個月至少,還和站點的建設情況有關。)
2、123.125.71.*來的是低權重的字段,在收錄效果上,我不能很明確的說yes,在結果中確實也出現了被這個ip爬取后第二天還顯示出來的收錄結果。
權重賦予上:
1、220.181.108.*字段的怎么說,爬過的給予的權重不低。我列這么個構想圖吧
(1)、
高權重爬取(保證了收錄)->的標題->文章標題全匹配搜索,肯定位
高權重爬取(保證了收錄)->抄別人的標題->文章標題全匹配搜索,結果也不會太差,貌似前3頁肯定找得到
而且還會碰到這樣,比如文章1的上下篇里有另一篇文章2的標題,即使文章2沒被爬過和收錄,只要文章1被高權重爬過并放出來,全匹配搜索文章2的標題,文章1也會經常堂而皇之的出現在搜索結果里。
(2)、
低權重爬取的被收錄后,只要資源不是稀缺形的,全標題匹配搜索還真不一定能找到。。。搜索結果展示確實不如高權重蜘蛛爬過的。
然后我們來看手游站近一周的分析數據 ,分析完了后發現,終收錄結果貌似和是否高、低權重蜘蛛爬過沒有關系,只影響收錄的速度,有種被忽悠的感覺。但歸根結底還是數據量小,時間長度拉的不夠,其實如果要驗證是否高權重蜘蛛爬取的收錄更快的話,還是應該看下當天爬取后隔天的收錄結果更準確。
其他的研究結果:
1、“百度診斷”工具來的蜘蛛是低權重蜘蛛字段。heng~這樣的逆推的話,估計在搜索結果里提示找不到要你提交url的那個功能估計也是低權重的蜘蛛字段
2、百度“站內搜索”提交的sitemap索引,來的是高權重的蜘蛛字段~
推薦閱讀
說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732