說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732
全網監測海量數據按需發布監測預警
實時把握輿情動態精準追溯信息源頭
每次拓詞獲得了大量的關鍵詞之后,要整理關鍵詞數據。以前的做法相對簡單粗暴,直接將這些內容交給客戶了。其實客戶也不能看出個所以然來,更別說做一個系統的關鍵詞庫了。所以趁著這次的機會,來說說步,如何用工具來處理這些關鍵詞數據。
樣本庫選用了”手機游戲排行榜”的300個拓展的詞(量比較小,整理弄好也花了不少時間),當初在一邊做一邊想。因為這個關鍵詞庫的處理終的影響結果是為了確定關鍵詞的子父級和確定頁面下的調用內容,和為將來的內鏈系統做準備的,所以如果有偏差請原諒。當然只是說說怎么用ICTCLAS2015工具處理這些關鍵詞的數據(不忘目的)。
地址?http://ictclas.nlpir.org/upload/20141230101836_ICTCLAS2015.zip 好后,進入ICTCLAS2015in,用NLPIR_WinDemo.exe這個程序打開。
1、首先說一下,用戶詞典這個功能,因為比較實際,如果你不添加自己的詞庫,例如上面的例子“手機游戲”、“排行榜”等幾個關鍵的詞,產生的分詞結果會很雜亂,到時候會看到“手”、“排行”、“榜”等單獨的字塊信息,這樣處理起來會很亂。所以如下圖把不重要的會產生干擾的詞不斷完善到詞庫里,減少后期的處理量。用戶詞是需要的“需要添加的關鍵詞”,自定義詞性定義了這個詞的屬性,我習慣用英文的n,adj,adv什么的去標記,待會告訴你這個東西會出現在哪里。 ? 2、接下來是分詞了。如下圖,沒有添加到過用戶詞庫里的詞出現了“”、“熱”和“火”分開的結果,“手機游戲排行榜”這個詞作為n_newword里過濾結果。 ? 然后你可以把這些東西復制到自己的excel里,去做處理了(如何處理看你自己的excel或者編程的功底,請自行腦補)。下圖是處理過的結果,這將近300個詞的詞根這樣出來了。 ? 第二張表格是對應的處理完的各個詞的分詞結果,這個有些詞根出來的結果(比如那一串的“免費”、“卡牌”)能幫你確認這部分的相關詞了,終采用一個寫title行。總結:來說說這樣做的意義吧。
1、你是不是做類似http://www.dajiabao.com/jihua/shanghai的時候在想用什么去分類呢?仿照倒數第二張處理的結果圖,你的頁面和分類的維度是不是能比較清晰的出來了?
2、比如“蘋果|”這個詞,你在做列表頁的時候,它的上級可以從“蘋果”里去調取父級的內容;可以從“”(形容詞庫)里去調取相關的內容,做成同質推薦;假使有“蘋果||動作”這個分詞的結果,那么可以將其內容作為“你是不是想找……”這樣的子級內容。至少這樣頁面在相關性上也更加容易被用戶所接受,不再是千篇一律的調用同一個板塊。 ? 說一下關鍵詞提取->詞頻這個功能,能幫你快速確定,你以前很粗礦的拓詞中加的類似“價格”“評論”這些個長尾是否真的出現的頻率有想像中的這么高。
推薦閱讀
說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732