說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732
全網監測海量數據按需發布監測預警
實時把握輿情動態精準追溯信息源頭
在信息收集和采集的過程當中,數據挖掘技術是一個非常重要的凡事也是必不可少的方式,那么數據挖掘技術的流程是什么以及如何使用呢?接下來我們就一起來好好的了解一下吧。
數據挖掘技術——數據挖掘技術的流程是什么
(1)信息收集:根據確定的數據分析對象抽象出在數據分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數據庫。對于海量數據,選擇一個合適的數據存儲和管理的數據倉庫是至關重要的。
(2)數據集成:把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。
(3)數據規約:執行多數的數據挖掘算法即使在少量數據上也需要很長的時間,而做商業運營數據挖掘時往往數據量非常大。數據規約技術可以用來得到數據集的規約表示,它小得多,但仍然接近于保持原數據的完整性,并且規約后執行數據挖掘結果與規約前執行結果相同或幾乎相同。
(4)數據清理:在數據庫中的數據有一些是不完整的(有些感興趣的屬性缺少屬性值),含噪聲的(包含錯誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因此需要進行數據清理,將完整、正確、一致的數據信息存入數據倉庫中。
(5)數據變換:通過平滑聚集,數據概化,規范化等方式將數據轉換成適用于數據挖掘的形式。對于有些實數型數據,通過概念分層和數據的離散化來轉換數據也是重要的一步。
(6)數據挖掘過程:根據數據倉庫中的數據信息,選擇合適的分析工具,應用統計方法、事例推理、決策樹、規則推理、模糊集、甚至神經網絡、遺傳算法的方法處理信息,得出有用的分析信息。
(7)模式評估:從商業角度,由行業專家來驗證數據挖掘結果的正確性。
(8)知識表示:將數據挖掘所得到的分析信息以可視化的方式呈現給用戶,或作為新的知識存放在知識庫中,供其他應用程序使用。
數據挖掘技術如何操作
神經網絡
神經網絡由于本身良好的魯棒性、自組織自適應性、并行處理、分布存儲和高度容錯等特性非常適合解決數據挖掘的問題,用于分類、預測和模式識別的前饋式神經網絡模型;以hopfield的離散模型和連續模型為代表的,分別用于聯想記憶和優化計算的反饋式神經網絡模型;以art模型、koholon模型為代表的,用于聚類的自組織映射方法。神經網絡方法的缺點是”黑箱”性,人們難以理解網絡的學習和決策過程。
遺傳算法
遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法。遺傳算法具有的隱含并行性、易于和其它模型結合等性質使得它在數據挖掘中被加以應用。
sunil已成功地開發了一個基于遺傳算法的數據挖掘工具,利用該工具對兩個飛機失事的真實數據庫進行了數據挖掘實驗,結果表明遺傳算法是進行數據挖掘的有效方法之一[4]。遺傳算法的應用還體現在與神經網絡、粗集等技術的結合上。如利用遺傳算法優化神經網絡結構,在不增加錯誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和bp算法結合訓練神經網絡,然后從網絡提取規則等。但遺傳算法的算法較復雜,收斂于局部極小的較早收斂問題尚未解決。
決策樹方法
決策樹是一種常用于預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它的主要優點是描述簡單,分類速度快,特別適合大規模的數據處理。最有影響和最早的決策樹方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要問題是:id3是非遞增學習算法;id3決策樹是單變量決策樹,復雜概念的表達困難;同性間的相互關系強調不夠;抗噪性差。針對上述問題,出現了許多較好的改進算法,如schlimmer和fisher設計了id4遞增式學習算法;鐘鳴,陳文偉等提出了ible算法等。
粗集方法
粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,易于操作。粗集處理的對象是類似二維關系表的信息表。但粗集的數學基礎是集合論,難以直接處理連續的屬性。而現實信息表中連續屬性是普遍存在的。因此連續屬性的離散化是制約粗集理論實用化的難點。
以上就是有關數據挖掘技術的所有相關介紹,做好網站優化,那么數據挖掘技術就一定要學會,所以各位站長們一定要注意了。如果大家還想了解更多與之有關的內容,歡迎關注我們文軍營銷的官網。
推薦閱讀
輿情分析報告如何寫,以及網絡輿情目前的現狀 | 文軍營銷事件監測數據計算-現狀:通常,關鍵詞進入系統后,會先在目前的數據庫(一般是ES)中進行查找,找到符合的數據并展現。但是好的系統會同時啟用多種手段提高數據召回率,例如搜索引擎、特定渠道的文章搜索等等。每篇文章都會進行細致的NLP語義分析以用于更詳細的挖掘用,但是由于算力和技術問題,大部分NLP計算都用于標簽分類、實體...李彥宏證監會演講:百度是如何布局人工智能的? | 文軍營銷當然,交通行業只是一個案例,未來的大數據將會從各行各業產生,而人工智能將會對這些各行各業的數據進行自頂向下的標準化挖掘、關聯,當前只是在利用人工智能挖掘各個行業的效率,在未來各種行業的大數據整合到一起之后,需要更為強大的人工智能將其整合、解讀、分析,終實現全社會的資源為的分配調度,而這也是百度野心。 ...
說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732