說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732
全網監測海量數據按需發布監測預警
實時把握輿情動態精準追溯信息源頭
對于輿情分析這個行業來說,需要的不僅僅是事件的羅列,更重要的還要在技術,輿情分析報告如何寫。輿情分析不需要針對一件事情掌握大量的信息資源,更要遵循科學的方法、技術手段以及信息化的工具,輿情分析報告如何寫,對采集到的內容進行梳理,對事件作出一個全面、綜合的評價。能夠及時預測到事件的發展態勢,提出合理化的建議以供大家決策。
對于輿情分析的流程大致分為如下,信息獲取-信息清洗-數據統計型分析-數據挖掘型分析-得出用于支持決策的結論或深加工數據。在輿情系統的社會化宏觀分析,通常只是對關鍵詞進行大規模監測以獲取最粗的線索,在這一步關鍵詞之間通常只是或的關系,并且數量大,也就是監測結果成百上千,導致人工二次研判分析的任務量和難度都不小。但是常規監測只是線索發現,也就是大海撈針,對召回率和準確率都有容忍度,而事件分析則不同,對兩項數值都有較高的要求,否則分析的結果可能會差別巨大。
對于計算機系統,通常從宏觀來說,就是輸入-計算-輸出,所有功能基本都離不開這個簡單的邏輯。所謂事件監測也是如此,輸入指用哪些條件來圈定事件,計算指對符合前述設定條件的數據做什么計算,輸出則是以何種形式展示什么數據已提供結果給用戶。目前大多數國內輿情系統的現狀是:
事件監測輸入條件-現狀:支持多組關鍵詞,每組間支持多個關鍵詞,類似搜索引擎,但是組的數量更多,最終形成復雜的查詢語句,并且關鍵詞會在搜索引擎或特定網站中進行檢索和收錄以提高召回率。時間維度,可以限定時間范圍,通常以發布時間為準。數據范圍,可以限定哪些網站或平臺來源。附加條件,例如詞距離值,對標題和正文的匹配傾向,主體詞、事件詞、地域等限制條件。
事件監測數據計算-現狀:通常,關鍵詞進入系統后,會先在目前的數據庫(一般是ES)中進行查找,找到符合的數據并展現。但是好的系統會同時啟用多種手段提高數據召回率,例如搜索引擎、特定渠道的文章搜索等等。每篇文章都會進行細致的NLP語義分析以用于更詳細的挖掘用,但是由于算力和技術問題,大部分NLP計算都用于標簽分類、實體提取、依存文法關系、情感分析等基本提取上了,并沒有形成很好的協同效應。
事件監測輸出-現狀:目前由于各方面成本限制,大部分市面產品主要以統計性圖表輸出為主,包括日數據量曲線圖、來源分布柱狀圖、傳播路徑樹形圖等。
一個事件在網絡上傳播的版本會很多,標題和正文都會有很大的變化,所以直接找出他們的共性是很難的,通過定義關鍵詞規則,實際上是將其中最大的共性找出來,但是詞向量間關系無法詳細定義,關鍵詞規則目前都是布爾表達式,也就是與或非關系,僅此而已了。
說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732