說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732
全網監測海量數據按需發布監測預警
實時把握輿情動態精準追溯信息源頭
來源:Rude同鞋的seosos。
好吧,我承認,關于CDN,其實到目前為止還是有很多盲點的。然后,還是開始逐漸的收集整理資料吧,來盡快掃除這些盲點。
1、百度官方文檔上的一句話
不同的CDN服務商在全國分布的節點數不同,站點在使用CDN服務時,同一地區CDN給蜘蛛返回的IP地址要和給用戶的一致。
部分CDN服務商出于成本考慮與資源使用率的問題,會在不告知用戶的情況下變更IP地址以節約成本,這樣導致蜘蛛在去抓的時候,會遇到新IP和老IP的問題,在站點沒有告知更換IP的情況下,蜘蛛會認為站點目前存在問題,首先是減少抓取量,其次會判斷是否把不可訪問的頁面下掉,這時候出現了用戶訪問IP與蜘蛛抓取IP不一致的情況。
建議有以下兩點:站點在選擇CDN服務時要選擇穩定的CDN服務商;如果IP更換通過站長平臺抓取診斷工具抓取測試,如果IP不正確可以點擊下圖紅框“報錯”提示給站長平臺。
2、關于百度的抓取機制
百度的抓取機制是:次訪問后,為了快速抓取,會把域名對應IP給緩存起來,第二次不訪問域名的DNS解析了,直接訪問緩存的IP;CDN的ip節點是動態變化的,這會造成第二次訪問了原先的IP,會報錯。
用戶訪問的時候:瀏覽器通過DNS查找用戶輸入網址對應的服務器IP地址,如果IP存在嘗試與服務器建立TCP連接。
內容出自光年社區,不確保準確性,但是感覺還是蠻靠譜的,另外上次在看百度的上海大講堂視頻時,似乎聽到說百度現在會弄兩個爬蟲,一個真實的爬蟲,一個偽裝成用戶,來避免出現抓不到內容的問題,至于跟這個搭不搭嘎,還是得回去瀏覽下視頻,再詳細了解下。
3、會由于CDN原因導致百度對網站的訪問出現問題的兩個原因解釋
一是IP地址亂變,用域名訪問不一定可以訪問。
二是在每個網站IP相對固定的前提下,訪問的爬蟲IP都是相對固定的,都在某個C段。但是如果網站IP亂變,搜索引擎會減少訪問,因為要重新分配爬蟲IP給你網站。
4、小細節知識點
穩定的CDN對SEO無害反而有利;
建議只對靜態網頁使用CDN,動態網站不使用;
部分CDN可以對搜索引擎解析IP,可將搜索引擎來源請求解析至源IP。
說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732