• 首页
        • 更多产品

          客户为中心的产品管理工具

          专业的软件研发项目管理工具

          简单易用的团队知识库管理

          可量化的研发效能度量工具

          测试用例维护与计划执行

          以团队为中心的协作沟通

          研发工作流自动化工具

          账号认证与安全管理工具

          Why PingCode
          为什么选择 PingCode ?

          6000+企业信赖之选,为研发团队降本增效

        • 行业解决方案
          先进制造(即将上线)
        • 解决方案1
        • 解决方案2
  • Jira替代方案
目录

什么是数据挖掘

数据挖掘是从数据累计中提取有用信息的过程,通常从数据仓库或链接数据集的集合中提取。数据挖掘工具包括强大的统计、数学和分析功能,其主要目的是筛选大量数据以识别趋势、模式和关系,以支持明智的决策和计划。 通常与市场营销部门查询相关,许多主管将数据挖掘视为一种帮助其更好地了解需求,并了解产品、定价或促销的变化对销售的影响。但是,数据挖掘对其他业务领域也有相当大的好处。工程师和设计人员可以分析产品变更的有效性,并查找与产品使用方式、时间和地点相关的产品成功或失败的可能原因。服务和维修运营可以更好地计划部件库存和人员配备。专业服务组织可以使用数据挖掘来识别因不断变化的经济趋势和人口结构变化而产生的新机遇。 借助更大的数据集和更多的用户体验,数据挖掘变得更有用力和价值。从逻辑上讲,数据越多,其中的洞察和情报就越应运而生。此外,随着用户更熟悉工具和更好地理解数据库,他们在探索和分析方面的创意就越大。

为何使用数据挖掘?

数据挖掘的主要优势在于,它能够识别来自多个数据源的大量数据的模式和关系。借助越来越多的来自社交媒体、远程传感器以及日益详细的产品移动和市场活动报告等来源的数据,数据挖掘提供了充分利用大数据的工具,并将其转化为可据以采取行动的情报。更何况,它可以充当“框外思维”的机制。 数据挖掘流程可以在看似无关的信息中发现令人惊讶和有趣的关系和模式。由于信息往往是分离的,因此从历史上来说,分析整体是困难或不可能的。但是,外部因素(可能是人口或经济因素)与公司产品的绩效之间可能存在某种关系。虽然高管会定期按区域、产品线、分销渠道和区域查看销售数据,但他们通常缺乏这方面的外部背景。他们的分析指出了“发生了什么”,但很少发现“发生这种情况的原因”。数据挖掘可以弥补这一差距。 数据挖掘可以寻找与外部因素的相关性;虽然相关性并不总是表示因果关系,但这些趋势可能是指导产品、渠道和生产决策的宝贵指标。从产品设计到运营效率和服务交付,相同的分析还有益于其他业务部分。

数据挖掘历史记录

几千年来,人们一直在收集和分析数据,在很多方面,流程保持不变:识别所需信息,找到优质的数据源,收集和整合数据,使用最有效的工具分析数据,并充分利用所学到的知识。随着计算和基于数据的系统不断发展壮大,数据也越来越先进,因此有了管理和分析数据的工具。20 世纪 60 年代,关系数据库技术和面向用户的自然语言查询工具(如结构化查询语言 (SQL))的发展成为了真正的转折点。不再仅通过自定义编码程序提供数据。借助这一突破性技术,业务用户能够交互式地探索数据,并挖掘隐藏在里面的智能宝石。 数据挖掘历来是数据科学的专业技能。但是,每一代分析工具都要求具备先进的技术技能,但很快发展到用户可以访问。交互性(让数据与您交流的能力)是关键进步。提问;请参阅答案。根据所学内容,再问一个问题。这种通过数据的非结构化漫游使用户超出了应用程序特定的数据库设计的范畴,并允许发现跨越功能和组织界限的关系。 数据挖掘是商务智能的关键组成部分。数据挖掘工具内置在管理仪表盘中,从大数据中获取洞察,包括来自社交媒体的数据、物联网 (IoT) 传感器源、位置感知设备、非结构化文本、视频等。现代数据挖掘依赖于和虚拟计算以及内存数据库,以经济高效的方式管理来自许多数据源的数据,并根据需要进行扩展。

数据挖掘如何运作?

数据挖掘方法与数据挖掘器一样多。该方法取决于所询问问题的种类,以及提供搜索和分析原材料的数据库或数据集的内容和组织。也就是说,应完成一些组织和准备步骤来准备数据、工具和用户:
  1. 了解问题,或者至少了解查询领域。 业务决策者应处于这种数据挖掘外探险的驾驶员席位,他们需要大致了解他们将要从事的领域,即作为此次探索一部分的内部和外部数据类型。假设他们对业务和相关职能领域有深入的了解。
  2. 数据收集。 从内部系统和数据库开始。通过数据模型和各种关系工具将其链接,或者将数据收集到数据仓库中。这包括来自属于您运营一部分的外部源的任何数据,例如现场销售和/或服务数据、物联网或社交媒体数据。寻找并获取外部数据的权利,包括人口统计信息、经济数据和市场情报,例如行业趋势和来自贸易协会和政府的财务基准。将其纳入工具包的范围(将其整合到数据仓库或将它们链接到数据挖掘环境)。
  3. 数据准备和理解。 利用贵公司的主题专家帮助定义、分类和组织数据。此部分流程有时称为数据整理或建模。某些数据可能需要清理或“清理”以删除重复、不一致、不完整记录或过期格式。随着新项目或新调查领域的数据变得值得关注,数据准备和清理可能是一项持续的任务。
  4. 用户培训。 你不会给少年们提供家庭法拉利的钥匙,没有让他们经过驾驶员的教育、路上培训,以及拥有执照司机的 一些监督实践,所以一定要向未来的数据矿工提供正式的训练,以及一些监督性的实践,因为他们开始熟悉这些强大的工具。继续教育 一旦掌握了基本知识,就可以转入更先进的技术,也是 一个好主意。

数据挖掘技术

请记住,数据挖掘基于工具包,而不是固定例程或流程。此处提及的特定数据挖掘技术只是一些示例,说明企业如何利用这些工具挖掘数据,从而搜索趋势、相关性、智能和业务洞察。 一般来说,数据挖掘方法可以归类为定向方法(侧重于特定的预期结果),也可以不定向为发现流程。其他探索可能旨在对数据进行排序或分类,例如根据行业、产品、大小和位置等业务属性对潜在客户进行分组。类似的目标、异常值或异常检测,是一种自动方法,用于在显示可识别模式的一组数据中识别实际异常(而不是简单可变性)。 关联 另一个有趣的目标是关联两个看似无关的事件或活动。从分析和数据挖掘的早期开始,一个经典的故事也许是虚构的,它有一个便利商店链,发现啤酒和尿布销售之间的关联。猜想晚上晚点跑出去的新父亲去领取尿布,可能会在那里抢到几包六包。商店将啤酒和尿布定位在近邻,从而增加啤酒销售。 聚类 此方法旨在按相似性而不是预定义假设对数据进行分组。例如,当挖掘客户销售信息以及外部消费信贷和人口统计数据时,您可能会发现最具盈利能力的客户来自中型城市。 大部分时候,数据挖掘都是为了支持预测或预测。越了解模式和行为,就越能更好地预测与因果或相关性相关的未来操作。 回归 回归分析在数据挖掘工具包中提供的数学技术之一,根据未来预计的历史模式预测了一个数字。各种其他模式检测和跟踪算法提供了灵活的工具,可帮助用户更好地了解数据及其代表的行为。 这些只是数据挖掘工具包中提供的一些技术和工具。选择工具或技术有点自动化,因为将根据问题的提出方式应用这些技术。在早期,数据挖掘被称为“切片和切块”数据库,但是现在的做法更为复杂,关联、聚类和回归等术语是司空见惯的。

用例和示例

数据挖掘是情感分析、价格优化、数据库营销、信用风险管理、培训和支持、欺诈检测、医疗和医疗诊断、风险评估、推荐系统(“客户也喜欢……”等)的关键。它可以成为任何行业的有效工具,包括零售、批发分销、服务行业、制造、电信、通信、保险、教育、制造、医疗、银行、科学、工程以及网络营销或社交媒体。
  • 产品开发:设计、制造或分销实体产品的公司可以通过分析采购模式以及经济和人口统计数据,找到更好地定位其产品的机会。他们的设计人员和工程师还可以交叉引用客户和用户的反馈、维修记录和其他数据,以确定产品改进机会。
  • 制造:制造商可以跟踪现场的质量趋势、维修数据、生产率和产品绩效数据,以识别生产问题。他们还可以识别可能的流程升级,从而提高质量、节省时间和成本、提高产品性能和/或指出对新设备或更佳工厂设备的需求。
  • 服务行业:在服务行业中,用户可以通过交叉引用具有特定服务、渠道、同行绩效数据、地区、定价、人口统计、经济数据等的客户反馈(直接反馈、社交媒体或其他来源),找到类似的产品改进机会。
最后,所有这些结果都应反馈给预测和计划,以便整个组织能够更密切地了解客户,适应预期的需求变化,并更好地利用新确定的机会。

数据挖掘挑战

  • 大数据:数据正在以更快的速度生成,为数据挖掘提供了更多机会。但是,鉴于数据量大、速度快、数据结构种类繁多,非结构化数据越来越多,因此现代数据挖掘工具需要从大数据中提取意义。许多现有系统难以处理、存储和利用这种大量输入。
  • 用户能力:数据挖掘和分析工具旨在帮助用户和决策者从海量数据中获取有意义和一致的意义和洞察力。在高度技术的同时,这些强大的工具现在还配有出色的用户体验设计,因此几乎任何人都可以在最少的培训下使用这些工具。但是,要充分获益,用户必须了解可用的数据及其正在寻求的信息的业务上下文。他们还必须知道,至少总的来说,这些工具是如何工作的,以及他们能做什么。这并不超出普通经理或高管的范围,但这是一个学习过程,用户需要投入一些精力来开发这一新技能。
  • 数据质量和可用性: 随着大量新数据的出现,还有大量不完整、不正确、误导、欺诈、损坏或仅简单无用的数据。这些工具可以帮助对此进行划分,但用户必须持续了解数据源及其可信性和可靠性。隐私问题也很重要,无论是获取数据还是您拥有的护理和处理。
相关文章