說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請(qǐng)撥打電話 400 685 0732
全網(wǎng)監(jiān)測(cè)海量數(shù)據(jù)按需發(fā)布監(jiān)測(cè)預(yù)警
實(shí)時(shí)把握輿情動(dòng)態(tài)精準(zhǔn)追溯信息源頭
轉(zhuǎn)載兩篇不錯(cuò)的分享文章,能解決以前一直糾結(jié)的問題,對(duì)于seoer有不錯(cuò)的指導(dǎo)意義:
來源:站長(zhǎng)社區(qū) 作者:Zewer
本人從事SEO多年,優(yōu)化的案例從幾千到幾十萬IP的都有,正規(guī)灰色都有,正規(guī)站從未主動(dòng)發(fā)過外鏈。也很不理解為什么非要去做外鏈。非企業(yè)站點(diǎn)來說,單錨本文提升單詞效果不大,可能是因?yàn)閮?yōu)化的站點(diǎn)原因。我接手的都是比較中大型的網(wǎng)站,不會(huì)刻意的去堆砌某個(gè)關(guān)鍵字的排名,更不用說去專門做某詞的錨文本進(jìn)行投票了。那么應(yīng)該如何優(yōu)化大型站點(diǎn)呢。我覺得重要的因素是架構(gòu)/結(jié)構(gòu)。跟大家分享首要的架構(gòu):url優(yōu)化。
URL優(yōu)化的效果跟站點(diǎn)在百度的權(quán)重關(guān)聯(lián)性不大,但是對(duì)收錄、蜘蛛爬行和傳遞權(quán)重有明顯的提升。我雖然不常發(fā)貼但是經(jīng)常觀察到大部分SEO的提問都是收錄怎么怎么不好,權(quán)重怎么怎么不高,我也觀看過很多站點(diǎn),很多基礎(chǔ)的工作完全都處于迷糊的狀態(tài)。試想換一種思路,站長(zhǎng)變成spider來爬行你的站,我相信大部分站長(zhǎng)自己都跑不通。這里我只給出url優(yōu)化的幾個(gè)重要點(diǎn)。
1.URL一致性:URL 一致性是一個(gè)非常重要的指標(biāo),推薦大家一本書《走進(jìn)搜索引擎》里面有介紹spider是一種機(jī)器程序,而非人腦,雖然也有學(xué)習(xí)的過程,但是國(guó)內(nèi)網(wǎng)站千千萬,每個(gè)網(wǎng)站有不同的url規(guī)范,你如果url命名規(guī)則雜亂無章spider又怎能的辨別你的內(nèi)容規(guī)范? 這里舉個(gè)個(gè)人覺得做的比較好的case:“吧”。讀者可以去翻閱吧的網(wǎng)站。他的主體結(jié)構(gòu)為:首頁(yè)=>列表頁(yè)=>內(nèi)容頁(yè) 。這里因地制宜,只是舉例可能并不適合你的站點(diǎn)。
吧我分析到他的優(yōu)化權(quán)重承載頁(yè)為他的內(nèi)容頁(yè)。而百度有“偏權(quán)重”的說法(見2),所以他把所有的列表頁(yè)統(tǒng)一用downlist/1~*.html的寫法。沒有給予列表頁(yè)過于集權(quán)也避免了“偏權(quán)重”的影響。 這樣子spider可以很自由的識(shí)別,只要在downlist目錄下面的(數(shù)字.html)都屬于他的列表頁(yè),層次清晰,爬取也很流暢。而他的集權(quán)重心在于內(nèi)容頁(yè)。內(nèi)容頁(yè)統(tǒng)一url為html/1~*.html 通過標(biāo)簽優(yōu)化和鏈輪把權(quán)重導(dǎo)向給html下面的目錄。“偏權(quán)重”集中在html目錄下。spider也很清晰的可以判斷/html目錄下面的(數(shù)字.html)都屬于內(nèi)頁(yè),層次清晰、爬取流暢,權(quán)重傳遞的也很集中,這也屬于集權(quán)的一種做法。自然收錄好權(quán)重高了。
Steven批注:這一點(diǎn)同意。
2.偏權(quán)重:偏權(quán)重可能是我自己創(chuàng)造的一個(gè)詞,大神們勿噴。通過我多年的分析發(fā)現(xiàn),每個(gè)站點(diǎn)的流量是有集中點(diǎn)的。這個(gè)從愛站的工具里面大家可以看出來,這里拿我一個(gè)客戶和朋友的網(wǎng)站給大家做做案例。
同一個(gè)網(wǎng)站 90%的流量都出自于某個(gè)目錄,在這里面內(nèi)容類型內(nèi)容質(zhì)量都是一樣的。相信大家在自己作站過程中也有所體會(huì),百度會(huì)偏向給權(quán)重到某個(gè)目錄。考慮到這個(gè)問題,url一致性和目錄規(guī)劃更重要了。
3.爬行原理:蜘蛛爬行原理有 深度優(yōu)先和寬度優(yōu)先這里分開說一下:
(1)深度優(yōu)先:深度優(yōu)先適用于一些大站,蜘蛛很渴望得到他的內(nèi)容,比如新浪網(wǎng)易他們的目錄很長(zhǎng),也能收錄。假如我們給蜘蛛一個(gè)線程只能爬取一個(gè)頁(yè)面,爬行軌跡:首頁(yè)-封面頁(yè)-頻道頁(yè)-內(nèi)容頁(yè),那么你網(wǎng)站的結(jié)構(gòu)是:首頁(yè)=> xxx/a=> xxx/a/b=> xxx/a/b/c/1.html=>。蜘蛛會(huì)沿著你的深度爬行進(jìn)去,但是無論多大的站,你的深度也必須有限,否則蜘蛛不可能無窮盡的挖掘進(jìn)去,爬累了自然會(huì)離開。并且內(nèi)容也沒帶回去。
(2)寬度優(yōu)先:這個(gè)是我非常推崇的,而且我所有新站都是這種效果。我自己建了5天的站蜘蛛爬行800次。效果說明在扁平化的,寬度優(yōu)先是可以讓蜘蛛非常的爬行和返回的。url結(jié)構(gòu) xxx/a/ xxx/b/ xxx/c/ 這類的叫寬度優(yōu)化,爬行軌跡 :首頁(yè)-頻道頁(yè)A-頻道頁(yè)B-頻道頁(yè)C/首頁(yè)-頻道頁(yè)A-內(nèi)容頁(yè)A1-內(nèi)容頁(yè)A2-內(nèi)容頁(yè)A*
綜上所述。其實(shí)可以看出:寬度優(yōu)先的效率明顯高于深度優(yōu)先。而且蜘蛛的任務(wù)類別也單一,非常容易識(shí)別。同一線程爬取的幾乎是同一類型頁(yè)面,頁(yè)面樣式,外觀相同。蜘蛛不必花時(shí)間過于的去分析你的頁(yè)面內(nèi)結(jié)構(gòu),層次清晰。
4.爬蟲黑洞:這個(gè)問題不是什么新問題了。百度也有做專門的闡述,因?yàn)橐恍﹗rl處理不當(dāng)產(chǎn)生的動(dòng)態(tài)參數(shù)后綴,或是刻意圈住蜘蛛所做的無限循環(huán),這種的效果明顯是弊大于利。對(duì)URL 的規(guī)劃上一定要想辦法盡可能的處理掉無限動(dòng)態(tài)參數(shù)后綴,并且也要合理的給蜘蛛出口,這才是真正有利于SEO 的做法,關(guān)于處理爬蟲黑洞的辦法這里我不做多講解。大家可以參考站長(zhǎng)學(xué)院的 《巧用robots避免蜘蛛黑洞》。
官方聲明:百度沒有“權(quán)重”,文章中提及的“權(quán)重”字樣僅為站長(zhǎng)個(gè)人觀點(diǎn)。
轉(zhuǎn)載第二篇文章:
首先聲明,我們只談?wù)撚袡z索意義的URL,也是用戶會(huì)從搜索引擎查找的頁(yè)面。其他頁(yè)面按照常用的方法做屏蔽好了。鑒于很多站長(zhǎng)都愛討論整體的收錄量,我必須潑一下冷水,也許你的有效收錄是1/10。
URL參數(shù)
也叫URL query,是一個(gè)復(fù)雜,容易被忽視,容易被妥協(xié)的問題。他是網(wǎng)站運(yùn)營(yíng)中必不可少的元素,如果簡(jiǎn)單的去除,其他部門無法工作了。 靜態(tài)化是的話題,URL參數(shù)經(jīng)常被用于以下幾方面:
同一個(gè)實(shí)體的不同狀態(tài)展示,比如同一個(gè)酒店,在不同時(shí)間點(diǎn)會(huì)有不同的房間庫(kù)存:http://www.travel.com/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10
為了統(tǒng)計(jì)不同渠道的流量:http://www.a.com/?tracking=website_a
為了統(tǒng)計(jì)不同渠道,具體模塊的點(diǎn)擊量:http://www.a.com/?tracking=website_a&click_spot=zone_abc
調(diào)試:http://www.a.com/product/item123/?debug=true
全奇葩的是亞馬遜,居然把統(tǒng)計(jì)參數(shù)放到了路徑中http://www.amazon.cn/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1
出現(xiàn)這種問題的壞處有幾點(diǎn):
1. 浪費(fèi)搜索引擎對(duì)你網(wǎng)站的各項(xiàng)配額,從而影響其他正常的頁(yè)面。
2. 丟失很多本應(yīng)拿到的鏈接加分,站外渠道的鏈接往往是質(zhì)的。同一個(gè)URL的分值可能分散成幾十份。
3. SEO的流量被統(tǒng)計(jì)到別的渠道(因?yàn)閠racking字段寫的是別的渠道,而且被收錄被點(diǎn)擊)
4. 往往形成一種局面,產(chǎn)品用一套URL,SEO用另一套URL, 甚至不同渠道用不同的URL,后期開發(fā)和維護(hù)的成本極高。
為了解決這個(gè)問題,首先要弄清URL的定義。以我的理解,每一個(gè)URL是一個(gè)靜態(tài)的、獨(dú)立不重復(fù)的、有意義的實(shí)體,一般也有檢索意義(是有人會(huì)搜)。比如一個(gè)人、一輛車、一條道路、一個(gè)零件。而不能混入各種”狀態(tài)”,比如這個(gè)人生病的時(shí)候,難道不是他自己了么? 一件商品在促銷的狀態(tài)難道是另一件商品了么?
理論上canonical標(biāo)簽可以解決這個(gè)問題了, 但是從實(shí)際測(cè)試結(jié)果看,百度對(duì)這個(gè)標(biāo)簽的支持優(yōu)先級(jí)非常低, 幾乎可以忽略不計(jì)。那么我的解決方案是這樣的:
1. 建立好網(wǎng)站的思維導(dǎo)圖和元信息。 (可參考:SEO健康度?)
2. 所有和SEO元信息相關(guān)的參數(shù)都放到路徑中去
3. 所有和SEO元信息不相干的參數(shù)都放到#后邊,因?yàn)?后邊不影響web服務(wù)器返回的內(nèi)容。簡(jiǎn)單的說是用”#”替代”?”。
4. 每個(gè)頁(yè)面中都利用js獲取#后邊的參數(shù)對(duì),通過二次請(qǐng)求發(fā)回給統(tǒng)計(jì)服務(wù)器
5. 如果#后邊的參數(shù)影響頁(yè)面內(nèi)容,比如酒店的入住日期。那么這部分內(nèi)容用ajax加載行,他是不穩(wěn)定的,不屬于頁(yè)面內(nèi)容的一部分。(當(dāng)然還有變通的辦法,暫不贅述。)
6. 原始的#錨點(diǎn)定義肯定會(huì)沖突,定義一個(gè)#后邊的變量,并用js控制屏幕滾動(dòng),來保證原始錨點(diǎn)的作用。
有人可能會(huì)想到,根據(jù)ua判斷,如果是搜索引擎爬蟲,用跳轉(zhuǎn)的方式去掉URL參數(shù)。但效率的方法必然是從一開始不展示錯(cuò)誤URL。那么前面的例子優(yōu)化后變成了:
http://www.travel.com/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10
http://www.a.com/#tracking=website_a
http://www.a.com/#tracking=website_a&click_spot=zone_abc
http://www.a.com/product/item123/#debug=true
其實(shí)很多網(wǎng)站早使用這種方式了,但是還有很多網(wǎng)站由于開發(fā)效率無法及時(shí)實(shí)現(xiàn)。所以對(duì)于一般的小網(wǎng)站,一定要考慮開發(fā)成本,不要輕易冒進(jìn)。只要能避免問題的發(fā)生,變通的方法是很多的。
Steven批注:#號(hào)是很不錯(cuò)的規(guī)避方法。
路徑中使用非必要元素
很多網(wǎng)站仿照亞馬遜的做法,把商品名體現(xiàn)在URL中,然后再通過id來決定頁(yè)面展示的內(nèi)容:http://www.amazon.cn/博集典藏館043?基督山伯爵-亞歷山大?仲馬/dp/B005TZHJEQ/
這樣雖然可以提高一些相關(guān)性,但是很危險(xiǎn)。在長(zhǎng)期甚至短期的時(shí)間內(nèi),大量商品的名稱是非常可能有變化的,那么URL也跟著變化。成本也是非常高的,因?yàn)榧哟罅思夹g(shù)實(shí)現(xiàn)難度,不管從站內(nèi)還是站外,每次增加鏈接都是一個(gè)很麻煩的事情。
在我接手藝龍SEO之前,URL被全部改成了這樣,對(duì)我早期的工作造成了非常巨大的負(fù)擔(dān):http://www.a.com/Shangrila_International_Hotel-12345678-hotel/
通過日志分析發(fā)現(xiàn)基本所有的百度蜘蛛發(fā)起的請(qǐng)求都被301跳轉(zhuǎn)了一次(日志分析方法可參考SEO健康度?)。細(xì)致調(diào)查后發(fā)現(xiàn),從SEO拼接規(guī)則到后臺(tái)的漢字和翻譯數(shù)據(jù)被一直修改。也是說,這個(gè)URL相關(guān)的元素有:
1. 中文 (非必要元素)
2. 由中文翻譯的英文 (非必要元素)
3. id (必要元素)
而當(dāng)時(shí)負(fù)責(zé)SEO的同事把英文和id拼接在了URL中,那么這樣一個(gè)URL先后變成過:
http://www.a.com/Shangrila_International_Hotel-12345678-hotel/
http://www.a.com/Xianggelila_International_Hotel-12345678-hotel/
http://www.a.com/XiangGeLiLa_International_Hotel-12345678-hotel/
http://www.a.com/Shangrila_guoji_Hotel-12345678-hotel/
跟”相關(guān)性”比,URL的性和穩(wěn)定性更重要。所以針對(duì)這個(gè)問題,URL的策略應(yīng)該是:http://www.a.com/hotel/12345678/
如果這個(gè)id是隸屬于一個(gè)分類下的,比如城市,那么可以是:http://www.a.com/hotel/beijing/123/
從技術(shù)角度說, id一般是數(shù)據(jù)庫(kù)的primary key,可以是數(shù)字也可以是字符串,那么這個(gè)時(shí)候URL是一維的; id也可以是聯(lián)合的索引,那么URL是二維的,像上面的(bejing,123)缺一不可。電商類網(wǎng)站列表頁(yè)經(jīng)常用到三維以上。
Steven批注:這一點(diǎn)可能和谷歌的解釋不太一樣,待定,不過從長(zhǎng)度上來說我同意作者的觀點(diǎn)。
大小寫
如果網(wǎng)站的技術(shù)架構(gòu)用的是開源系統(tǒng),一般是不會(huì)有這個(gè)問題的。如果使用了微軟的技術(shù)架構(gòu),這個(gè)問題非常常見:
http://www.a.com/newyork/
http://www.a.com/Newyork/
http://www.a.com/NewYork/
我的建議是統(tǒng)一使用小寫,大寫自動(dòng)跳轉(zhuǎn)為小寫(小心301死循環(huán)!)。
Steven批注:這一點(diǎn)OK,當(dāng)初日?qǐng)?bào)的站這么處理的。
目錄的規(guī)范
很多網(wǎng)站同時(shí)存在這樣的URL,無形中把收錄量擴(kuò)大了一倍:
http://www.a.com/product/123
http://www.a.com/product/123/
上邊個(gè)路徑的意思是在product目錄下有一個(gè)123文件。第二個(gè)路徑的意思是在product目錄下有一個(gè)123目錄,這個(gè)目錄下可能有很多文件,但是他代表眾多文件中的index.html或index.php或default.aspx等優(yōu)先級(jí)的那個(gè)文件。為了避免歧義,我定義文件都是用”.html”結(jié)尾的。
為了減少重復(fù)收錄,那么按我的習(xí)慣是:
http://www.a.com/product/123??=>?http://www.a.com/product/123/
http://www.a.com/product/123??=>?http://www.a.com/product/123.html
Steven批注:同意。
總結(jié)
1. 所有部門統(tǒng)一使用SEO定義的URL,屏蔽非SEO URL的入口。
2. 用”#”替代”?”
3. 統(tǒng)一使用小寫
4. 保證目錄的規(guī)范
5. 把不規(guī)范的URL跳轉(zhuǎn)到規(guī)范的URL
文章雖然結(jié)束但是討論可以繼續(xù),大家可以到【學(xué)院同學(xué)匯】《如何避免大量重復(fù)URL被百度收錄》討論帖,與作者劉明進(jìn)行探討。
推薦閱讀
淺談URL優(yōu)化該怎么寫,如何判斷重要性@steven | 文軍營(yíng)銷如何判斷重要性@steven 淺談url優(yōu)化該怎么寫,如何判斷重要性@steven 時(shí)間:2015-07-09 09:07:50 轉(zhuǎn)載兩篇不錯(cuò)的分享文章,能解決以前一直糾結(jié)的問題,對(duì)于 seo er有不錯(cuò)的指導(dǎo)意義: 來源:站長(zhǎng)社區(qū)作者:zewer 本人從事seo多年,優(yōu)化的案例從幾千到幾十萬ip的都有,正規(guī)灰色都有,正規(guī)站從未主動(dòng)發(fā)過外鏈.也很不...百度已取消外鏈功能:站長(zhǎng)無需再為外鏈浪費(fèi)時(shí)間@crystal | 文軍營(yíng)銷三、從現(xiàn)在開始,網(wǎng)站優(yōu)化原本的工作計(jì)劃要變動(dòng)一下原本為外鏈而奮斗的站長(zhǎng)、外鏈專員、seoer,從現(xiàn)在開始,網(wǎng)站的優(yōu)化工作計(jì)劃要適當(dāng)?shù)淖儎?dòng)一下了。可以把原來的外鏈工作砍掉,讓大部分的工作內(nèi)容用在網(wǎng)站內(nèi)容建設(shè)上和交換友情鏈接上。當(dāng)然,如果公司或個(gè)人站長(zhǎng)舍得花錢,可以每個(gè)月購(gòu)買1-2次知名網(wǎng)站上的外鏈和高質(zhì)量的...淺談URL優(yōu)化該怎么寫,如何判斷重要性@steven | 文軍營(yíng)銷內(nèi)容頁(yè)統(tǒng)一url為html/1~*.html 通過標(biāo)簽優(yōu)化和鏈輪把權(quán)重導(dǎo)向給html下面的目錄。“偏權(quán)重”集中在html目錄下。spider也很清晰的可以判斷/html目錄下面的(數(shù)字.html)都屬于內(nèi)頁(yè),層次清晰、爬取流暢,權(quán)重傳遞的也很集中,這也屬于集權(quán)的一種做法。自然收錄好權(quán)重高了。 Steven批注:這一點(diǎn)同意。 2.偏權(quán)重:偏權(quán)重...
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請(qǐng)撥打電話 400 685 0732