数据挖掘功能有:1. 数据分类;2. 数据估计;3. 数据预测;4. 数据关联分组;5. 数据聚类。其中,数据分类为数据挖掘中常见的功能之一,顾名思义即是将分析对象依不同的属性分类加以定义,建立不同的类组。
一、数据挖掘功能
1. 数据分类
数据分类为数据挖掘中常见的功能之一,顾名思义即是将分析对象依不同的属性分类加以定义,建立不同的类组。数据挖掘中的分类是指针对未发生的结果进行预测分类,主要包括归纳和推论两步骤,其主要目的在于提高分类的准确度,建立分类规则,再评估准则的优劣。常用“判定树”算法。
2. 数据估计
根据不同相关属性数据的连续性数值,找出各属性间的关联性,以了解并获得某一特定属性未知的连续性数值,常用“回归分析”及“类神经网络算法”。
3. 数据预测
预测工作的目的在于以其他属性的值为基础来预测特定属性的值。而这个被预测属性的值通常称为目标变量或是因变量;而其他属性则称为解释变量或自变量,预测的主要方法在于建立数据当中因变量与自变量间的关系。常用“回归分析”“时间序列分析”及“类神经网络”算法。
4. 数据关联分组
数据关联分组主要用来发现数据中特征属性间具有高度关联性的一种模式,其所发现的模式通常是用规则来表现。常用“关联规则(又称购物蓝分析)”算法。
5. 数据聚类
数据聚类主要是利用数据中类似或相同的项目,将同构型较高的数据区隔为不同的聚类,聚类内数据相似度越高越好,聚类间差异度越大越好。在一大群的研究对象中,根据不同的研究目的必定会有异质化的现象,但异质化的现象可能是几个同质化的群组所造成,数据聚类的主要目的便是将不同的同质化的组别差异找出来,常用“判别分析”与聚类分析“算法。
延伸阅读:
二、数据的4V要素
Volume:具备超出典型数据库软件收集、存储、管理和分析能力的数据集;
Variety:具备多样性的,结构化、半结构化、非结构化等多种类型的数据形式;Velocity:具备快速、实时的数据处理能力;
Value:具备从稀疏的数据中挖掘高价值内容的意义。
4V要素之间存在密切的关联关系:Volume是所有工作的基础,构建一个容量足够巨大的数据处理平台才能保证其上的应用;基于Volume进一步有Variety,用于多样化数据的处理;Velocity保证了系统有实时数据处理的能力;最终的Value体现了数据所能发挥的价值,大数据最重要的并非“大”,也并非“数据”本身,而是人们如何认识和使用它,尽最大可能挖掘出其中价值,正所谓吹尽黄沙始见金。
以上就是关于数据挖掘功能的内容希望对大家有帮助。