1 ? ?選取詞庫競爭對手->準備階段:選擇基礎的根詞和相關的長尾詞
1.1 ? ?專業的
seo分類站點上找;導航站上去批量找到;如果實在無資源的情況下可手動補充。目標是盡量涵蓋行業內的所有站點。
1.2 ? ?自有的抓取數據庫里找到行業根詞
1.3 ? ?行業競爭對手的網站地圖中找到行業根詞
1.4 ? ?手上擁有的資源站點中找到搜索流量的搜索詞(百度統計、GA統計等統計工具)
1.5 ? ?有資源的話,請花錢向專業的整合公司購買行業關鍵詞數據庫
1.2批注 ? ?如果先期已經有網站了,請從自己站點的維度出發尋找,其中一定有讓底層的根詞庫
建議:
處理人員:助理
相關技能:火車頭或相關的采集工具
耗時估計:1-2天
大部分情況下我們不是1.5的土豪,花個萬把塊買整合好的數據,所以接著1.1-1.4如下處理
2 ? ?再次拓詞->將較為完整的1中的詞拿出來再做拓展,力求涵蓋整個行業的關鍵詞數據庫
2.1 ? ?將1.1中的站點分類,選出和你將要做的站點屬性相同的站
2.1.1 ? ?采集這些站點下的關鍵詞庫,可采用:愛站關鍵詞挖掘工具(非付費導出量有限,量級較少,噪點較少),5118數據庫(可采用火車頭采集,利用2次抓取的邏輯可采集到量級很大的詞,但噪點過多,很多100名開外的無用詞);
2.2 ? ?將1.2,1.3,1.4,2.1中的詞放入關鍵詞拓展工具中進行拓展
2.2.1 ? ?根詞的拓展量可以在6K左右;已經較長尾的拓展量可以再600左右,請自適應安排
2.3 ? ?將所有的詞整理,先初步去重(包含兩步,重復項和某些特定詞;建議程序)
2.1批注 ? ?以游戲站點為例,分類成:網游;頁游;手游;小游戲;綜合等,找出你要做的站點的屬性,將其記錄下來。
2.1批注 ? ?綜合類的站點,比如sina.com.cn,用愛站或5118找到其屬性和你相同的站,假使你要做頁游,看看有沒有web.sina.com.cn等站點,快速找到提取
2.1.1批注 ? ?要資源購買付費版的買付費版,能很大程度上節省時間,別老想著免費;
2.1.1批注 ? ?5118數據庫用火車頭可以批量抓取,量級大的話需要時間,請預估好;采集的方式,先通配采集每個域名/subdomains/下的翻頁數,再批量寫規則通配采集/baidu/rank/下的關鍵詞,這樣做是因為每個域名的排名頁數不同
2.2批注 ? ?愛站的拓長尾詞能力好一些,短詞(既行業根詞)可用愛站跑;中短詞長度(判斷標準,excel函數=len(*)在4-9左右)可用戰神工具跑;中長詞(=len(*)在9-18左右)也可用戰神工具跑;長詞(=len(*)在18-29左右)感覺可以該刪的刪掉,不用跑了
由于去重出來的重復量過大,有千萬級別的,所以必須過濾,分機器和人工同時進行處理
3 ? ?處理關鍵詞
3.1 ? ?機器初過濾 – 處理噪詞;去重
3.1.1 ? ?直接匹配刪 ,比如:#,$,http,-,..,.com,.xml等等,根據自己的行業特性進行篩選,包含的直接刪
3.1.2 ? ?替換,主要是轉義的和空格,比如:?,",&
3.1.3 ? ?全數字刪除,根據行業情況處理
3.1.4 ? ?以上剩余的詞庫做去重
3.2 ? ?機器初篩選 – 提取精準詞
3.1.1 ? ?再處理下根詞,把根詞中的噪詞處理一下,比如()里面的內容等,幫助接下來機器提取的精準度
3.1.2 ? ?用行業詞庫和根詞去匹配所有的詞,整理出一份文檔,打包。這部分是精準的詞。
3.3 ? ?人力去臟詞
3.3.1 ? ?軟件工具 :notepad++;office excel 2010以上的版本(WPS不行);?關鍵詞自動分類工具
3.3.2 ? ?步驟
3.3.2.1 ? ?用notepad++打開文檔,將所有詞復制到分類工具中
3.3.2.2 ? ?點擊分類工具中的開始查詢
3.3.2.3 ? ?等待,等到右邊跳出終的結果(過程可能持續5-15分鐘不等,不用理睬未響應),期間可以同步進行其他事情
3.3.2.4 ? ?復制分詞中的結果到notepad++,再到xls表格中(點擊結果,ctrl+a,因為沒有明顯的標識,等待全部變藍,期間可能有幾次未響應)
3.3.2.5 ? ?xls表格中,#字號分列
3.3.2.6 ? ?行插入四列,根詞,一級,二級,三級
3.3.2.7 ? ?選擇四列,插入數據透視表
3.3.2.8 ? ?在B列進行數字標識,直接刪除的為1(無關),待定的為2(其間既混有游戲詞也混有無關詞),OK的為3
3.3.2.9 ? ?處理完后在E2列輸入函數公式 ? =VLOOKUP(A2,Sheet4!A:B,2,0),下拉到底等待處理完畢
3.3.2.10 ? ?選擇E2列,篩選,將1的去除,留下2和3的結果
3.3.2.11 ? ?保存文檔,一份整理完
(這部分待編輯,留優化空間)
?
二、 ? ?采集底層文章 -> 根據2中的詞使用采集工具去采集底層文章
3.1 ? ?使用付費工具,水淼軟件,采集非百度的源(可使用360、搜狗、微信、bing、谷歌等,谷歌需翻墻)
3.2 ? ?文章篩選效率優化
3.2.1 ? ?規則:a.包含主要根詞(以網頁游戲為例,文章中包含“頁游”or“webgame”);b.和游戲有關;c.標題限制;d.大小限制(大于多少K的可以直接去除);e.文章內容下限250字;f.再加上人工的篩選;g.機器替換競品詞和去除某些詞;總體篩選剩余在18%左右
3.3 ? ?采集源優化:找非百度的源頭,哪些文章質量命中更高一些,如果相同的情況下,可以看下抓取的質量或抓取的時間時效性
3.3.1 ? ?先采集攻略,防止如果先采集新聞,將攻略類的資源分布進去,增加后期調整的成本
三、 ? ?站點優化