大數據體系中常用的5種主要的數據挖掘技術

分類:小喵視點     發布時間:2018-09-19 11:42:14
分享到 :

數據挖掘技術涉及到“如何處理數據和識別信息中的模式與趨勢”,根據IBM提供研究報告所述,“數據挖掘技術與原理已經存在了很長的一段時間,但是隨著大數據技術的出現和快速發展,數據挖掘顯得更加富有意義,因此它變得更加流行了?!?/p>


據IBM研究報告所進行的估計,僅過去的兩年(2016年至2017年)就產生了世界上百分之九十的數據。每天人們產生 2.5 EB的數據,足以填滿1000萬個藍光光盤。


數據挖掘技術幫助專業技術人員了解和應用可用數據集。這些技術可以為企業和組織提供描述性、關聯性和預測性的能力。以下就是5種經常使用的大數據挖掘技術。


01關聯規則


關聯規則使兩個或多個項之間的關聯以確定它們之間的模式。例如,超市可以通過顧客的消費數據通過關聯規則確定顧客在買草莓時也常買鮮奶油,反之亦然。關聯通常用于商品銷售系統和客戶營銷系統中,以確定客戶與產品之間的共同趨勢。


這是一個非常簡單的方法,通過關聯規則的數據挖掘方法可以幫助企業從日常使用的信息和數據中挖掘出許多具有利用價值的數據,利用這些數據可以用來幫助企業提高經營效率和增加營業收入。


02分類與標簽


我們可以使用多個屬性來標記特定類別的項。分類將項目分配到目標類別或類(標簽)中,以便準確地預測該類別(標簽)內部具備什么特性。


某些行業會將客戶進行分類。例如,一家信貸公司可以使用分類模型來確定貸款申請人的低、中或高信用風險。其他組織將當前和目標受眾分為不同年齡和社會團體進行營銷活動。用戶畫像系統就是根據分類和標簽法來為用戶建立各種屬性的類別和標簽, 從而得到用戶的應用模型, 為企業的經營提供重要的決策依據。

03聚類


“聚類是將數據記錄組合在一起的方法”,根據Alex Berson、Stephen Smith和Kurt Thearling在《Building Data Mining Applications for CRM》這本書中所說?!巴ǔ_@樣做是為了讓最終用戶對數據庫中發生的事情有一個高層次的認識?!?/p>


查看對象分組情況可以幫助市場細分領域的企業,在這樣的例子中可以使用聚類將市場細分為客戶子集。然后,每個子集可以根據簇的屬性來制定特定的營銷策略,例如在一個簇中與另一個簇中的客戶的購買模式的對比。

4決策樹


決策樹用于分類或預測數據。決策樹從一個簡單的問題開始,它有兩個或多個的答案,每個答案將會引出進一步的問題,該問題又可被用于分類或識別可被進一步分類的數據,或者可以基于每個答案進行預測。


例如,可用應用決策樹圖分析手機供應商如何分類流失的客戶,或不更新手機的客戶。Building Data Mining Applications for CRM的作者為決策樹圖的構建提供了一些有趣的值得借鑒的東西。將數據分成多個葉結點,所有葉結點的數據記錄數的加和等于輸入數據的記錄總數。例如,父結點中的數據記錄總數等于其兩個子結點中包含的記錄總和。當在決策樹上上下移動時,流失前和流失后的客戶數量是需要存儲的。這樣能夠很容易的理解模型的構建。


如果你需要針對可能流失的客戶提供一份市場營銷方案,則該模型(決策樹模型)非常易于使用。


公司可以發展對其客戶群的直覺;例如,可以得出這樣的結論,那些多年一直在供應商身邊客戶和擁有手機的客戶往往是忠誠的。


05序列模式


序列模式識別相似事件的趨勢或通常情況發生的可能。這種數據挖掘技術經常被用來助于理解用戶購買行為。許多零售商通過數據和序列模式來決定他們用于展示的產品。


“根據客戶數據,您可以識別客戶在一年中不同時間購買的特定的商品集合”,根據IBM研究報告所述,“在購物車的實際應用中,你可以自動地根據用戶瀏覽頻率和過去的購買歷史記錄來預測某些商品會被用戶所關注, 可以在用戶的購物車應用為用戶推薦相關的商品信息”, 這就是利用大數據挖掘技術為用戶推薦商品(推薦系統)。