大数据就是我们每天所徜徉的数据海洋。这些数据规模达到了 ZB 级,由我们的电脑、移动设备和机器传感器生成。
大数据的详细定义
我们每天都徜徉在大数据的海洋中,电脑、移动设备和机器传感器都在生成大量数据,规模达到了 ZB 级。企业利用这些数据制定决策,完善流程和政策,并打造以客户为中心的产品、服务和体验。大数据之所以被称为“大”数据,不仅仅是因为数量庞大,还在于种类上的多样性和复杂性。通常情况下,传统数据库无法有效捕获、管理和处理大数据。大数据的来源非常广泛,包括我们能够利用数字方式监控的任何地方和任何事物。气象卫星、物联网设备、交通摄像头、社交媒体动态,这些只是我们目前利用的一部分数据源。通过挖掘和分析这些数据,企业能够提高自身的韧性和竞争力。
大数据分析的重要性
大数据的真正价值取决于企业分析和理解大数据的能力。借助人工智能 、机器学习和现代数据库技术,企业能够实现大数据可视化和分析,实时获得可据以采取行动的洞察。大数据分析可以帮助企业充分利用他们的数据,把握新机遇,革新业务模式。作家兼管理分析师 Geoffrey Moore 曾说过:“不进行大数据分析,企业就会‘耳聋眼瞎’,犹如在高速公路上徘徊的野鹿。”
大数据的演变
阿波罗制导计算机用不到 80 KB 的内存将第一艘宇宙飞船送上月球,这在今天看来似乎不可思议。自那时起,计算机技术呈指数级增长,大量数据也随之产生。事实上,自 20 世纪 80 年代以来,全球数据存储技术能力大约每三年就会翻一番。仅仅 50 多年前,当阿波罗 11 号升空时,全世界产生的数字数据量还只相当于现在一台普通笔记本电脑的存储量。2020 年,据 Statista 估计,全球生成或复制的数据量达到了 64.2 ZB;同时,“未来五年生成的数字数据量将比自数字化存储面世以来生成的总数据量的两倍还要多。”
随着软件和技术越来越先进,非数字系统的用武之地越来越少。数字技术产生和采集的数据需要更先进的数据管理系统来处理。由多家全球知名信息管理公司共同提出了“大数据”的概念,并由此成为互联网行业的关注焦点。此外,社交媒体平台、智能手机技术以及数字化互联物联网设备的指数级增长也帮助造就了当前的大数据时代。
大数据包括哪些类型:什么是结构化、非结构化和半结构化数据?
根据数据集的结构和建索引的难易程度,数据集通常被分为三类。
- 结构化数据:这类数据最容易整理和搜索,主要包括财务数据、机器日志和人口统计明细等。结构化数据很好理解,类似于 Excel 电子表格中预定义的行列布局。这种结构下的数据很容易分门别类,数据库设计人员和管理员只需要定义简单的算法就能实现搜索和分析。不过,即使结构化数据数量非常大,也不一定称得上大数据,因为结构化数据本身比较易于管理,不符合大数据的定义标准。一直以来,数据库都是使用 SQL 编程语言管理结构化数据。SQL 是由 IBM 在 20 世纪 70 年代开发的,旨在帮助开发人员构建和管理当时正逐步兴起的关系型(电子表格式)数据库。
- 非结构化数据:这类数据包括社交媒体内容、音频文件、图片和开放式客户评论等。这些数据符合大数据定义中大而复杂的要求,也因此这些数据通常很难用标准的行列关系型数据库捕获。一直以来,如何利用这类大数据是企业在不断探索的问题。大多数情况下企业若想搜索、管理或分析大量非结构化数据,只能依靠繁琐的手动流程。毫无疑问,分析和理解这类数据能够为企业带来价值,但是执行成本往往太过高昂。而且,由于耗时太长,分析结果往往还未交付就已经过时。因为无法存储在电子表格或关系型数据库中,所以非结构化数据通常存储在数据湖、数据仓库和 NoSQL 数据库中。
- 半结构化数据:顾名思义,半结构化数据是结构化数据和非结构化数据的混合体。电子邮件就是一个很好的例子,因为其中的正文属于非结构化数据,而发件人、收件人、主题和日期等则属于结构化数据。使用地理标记、时间戳或语义标记的设备也可以同时提供结构化数据和非结构化内容。例如,一张未做标识的智能手机图片仍然可以告诉你,这是一张自拍照,以及拍摄的时间和地点。采用人工智能技术的现代数据库不仅能够即时识别不同类型的数据,还能够实时生成算法,有效地管理和分析各种相关的数据集。
大数据的来源
大数据的来源十分广泛,可以说我们每天都徜徉于大数据中。从无人机卫星到烤面包机,数据生成设备的数量正在以惊人的速度增长。但总的来说,数据源主要分为以下三类:
社交数据
顾名思义,社交数据来源于社交媒体评论、发帖、图片以及与日俱增的视频文件。随着全球 4G 和 5G 蜂窝网络的普及,预计到 2023 年,全球手机视频用户将增至 27.2 亿。虽然社交媒体及其使用趋势瞬息万变、难以预测,但作为数字数据的主要来源,其稳定增长趋势是不会改变的。
机器数据
物联网设备和机器都配有传感器,能够发送和接收数字数据。物联网传感器能够帮助企业采集和处理来自整个企业的设备、工具和装置的机器数据。从天气和交通传感器到安全监控,全球范围内的数据生成设备正在迅速增多。据 IDC 估计,到 2025 年,全球物联网设备数量将超过 400 亿,生成的数据量几乎占全球数字数据总量的一半。
交易数据
交易数据是世界上发展速度和增长速度最快的数据。例如,一家大型国际零售商每小时处理超过 100 万笔客户交易。想象一下,全球那么多采购和银行交易,生成的数据量会有多么惊人。此外,交易数据越来越多地由半结构化数据组成,包括图片和注释等,使得管理和处理难度不断增加。
大数据的五大特性
大型数据集不一定是大数据。要称为大数据,数据必须至少具备以下五项特性:
- 数据量巨大:尽管数据量不是判断大数据的唯一要素,但绝对是一项主要特性。为了充分管理和利用大数据,企业需要采用高级算法和由人工智能驱动的分析工具。但在此之前,企业需要采用安全可靠的方式来存储、整理和检索数万亿字节的数据。大型企业通常都拥有如此规模的数据。
- 处理速度快:过去,数据生成后,必须先输入到传统数据库系统中(通常手动进行),然后才能用于分析或检索。如今,借助大数据技术,在数据生成之时,数据库就能即时处理、分析和配置数据,有时甚至在毫秒内就能完成。这样一来,企业就可以利用实时数据捕获财务机会,响应客户需求,预防欺诈,并处理对速度要求极高的任何其他活动。
- 种类多样化:如果数据集中只包含结构化数据,无论其规模多么庞大,都不是大数据。大数据通常由结构化、非结构化和半结构化数据组成。传统的数据库和数据管理解决方案缺乏灵活性且功能范围有限,根本无法应对大数据中各种不同且复杂的数据集。
- 准确可靠:尽管借助现代数据库技术,企业能够采集和理解大量不同类型的数据,但只有准确、相关和及时的数据才具有价值。对于仅存储结构化数据的传统数据库,语法错误和拼写错误屡见不鲜。而在非结构化数据方面,我们面临一系列全新的数据准确性挑战。人类偏见、社交干扰信息和数据来源问题都会影响数据质量。
- 交付价值:毫无疑问,大数据分析产生的结果往往出人意料且极具吸引力。但是,对于企业而言,大数据分析提供的洞察必须能够帮助企业提高竞争力和韧性,并为客户提供更卓越的服务。现代大数据技术提供了数据采集和数据检索功能,能够帮助企业大幅提升利润和运营韧性。
大数据的优势
借助现代大数据管理解决方案,大数据分析工作更加智能化,企业能够以前所未有的速度和准确度将原始数据转化为相关洞察。
- 产品和服务开发:借助大数据分析,产品开发人员能够分析非结构化数据,如客户评论和文化趋势,并快速作出响应。
- 预测性维护:在一项全球调查中,麦肯锡 (McKinsey) 发现,通过对物联网机器生成的大数据进行分析,设备维护成本可以降低 40%。
- 客户体验:Gartner 在 2020 年对全球企业领导者开展的一项调查中发现,相比非成长型企业,成长型企业采集客户体验数据的积极性更高。借助大数据分析,企业可以打造更卓越的个性化客户体验。
- 韧性和风险管理:新冠疫情的发生让许多企业领导者猛然意识到,他们的企业运营在面临意外中断时多么不堪一击。大数据洞察能够帮助企业预测风险,并为意外事件做好准备。
- 节省成本和提高效率:当企业将高级大数据分析技术应用于企业的所有流程时,他们不仅能够发现效率低下之处,还能实施快速、有效的解决方案。
- 提高竞争力:利用大数据分析技术所得到的数据洞察能够帮助企业节约资金,提高客户满意度,打造更优质的产品,并革新业务运营。
人工智能和大数据
大数据管理依赖于能够处理并有效分析大量不同复杂信息的智能化大数据应用系统。在这方面,大数据和人工智能相辅相成。如果没有人工智能帮助整理大数据并进行大数据分析,大数据就无法发挥实际用途。人工智能也有赖于大数据中包含的广泛数据集来交付可据以采取行动的分析结果。正如 Forrester Research 分析师 Brandon Purcell 所言:“数据是人工智能的命脉。人工智能系统需要从数据中学习,才能实现自身的功能。”
数据是人工智能的命脉。人工智能系统需要从数据中学习,才能实现自身的功能。
– Brandon Purcell,Forrester Research 分析师
除了大数据外,越来越多的企业开始使用“小数据”训练 AI 和机器学习算法。小数据集中蕴藏着宝贵的信息,比如营销调查、电子表格、电子邮件、会议纪要,甚至个人社交媒体帖子等数据集,但是这类数据集却经常被忽视。归根结底,用于训练算法的数据越多,输出结果就越好。
机器学习和大数据
机器学习算法能够定义传入的数据并识别其中的模式。这些洞察有助于企业制定明智的业务决策并实现流程自动化。机器学习的发展有赖于大数据,因为分析的数据集质量越高,系统不断学习、发展和调整自我的机会就越大。
大数据技术
大数据架构
大数据架构就像建筑施工中的架构一样,为企业如何管理和分析数据提供了基础结构蓝图。大数据架构将大数据管理流程分为四个基本层级,首先是数据源,然后是数据存储,再是大数据分析,最后是使用层,在这个层级,分析结果以商业智能的形式呈现。
大数据分析
大数据分析流程利用专门针对大数据特征构建的数据模型和算法,实现有意义的数据可视化。在麻省理工斯隆管理学院进行的一项深入调研中,超过 2,000 名企业领导者介绍了他们的大数据分析情况。不出所料,那些积极制定和支持大数据管理战略的企业取得了最卓越的业务成果。
大数据和 Apache Hadoop
想象一下,10 个一角硬币和 100 个五分硬币混在一个大盒子里。再想象一下,10 个小盒子并排放着,每个盒子中有 10 个五分硬币和 1 个一角硬币。哪种情况更容易找到一角硬币?Hadoop 的工作原理与这基本相似。Hadoop 是一个开源框架,将很多计算机互联起来,组成一个网络,进行分布式大数据处理。所以,Hadoop 不是使用一台大型计算机存储和处理所有数据,而是将多台计算机聚集到一个几乎无限可扩展的网络中,并行分析数据。该流程通常使用 MapReduce 编程模型,通过编排分布式计算机来协调大数据处理。
数据湖、数据仓库和 NoSQL 数据库
传统 SQL 电子表格式数据库用于存储结构化数据。非结构化和半结构化大数据需要独特的存储和处理模式,因为这些数据不适于建索引和分类。数据湖、数据仓库和 NoSQL 数据库都是用来管理非传统数据集的数据库。数据湖主要存储尚未处理的大量原始数据。数据仓库主要存储已针对特定目的进行处理的数据。NoSQL 数据库则非常灵活,可以根据要处理的数据性质进行调整。这些系统都各有优缺点,许多企业会组合使用不同的数据存储库来满足自身需求。
内存数据库
传统的磁盘数据库是基于 SQL 和关系型数据库技术开发的。虽然这些数据库能够处理大量结构化数据,但并不适合存储和处理非结构化数据。对于内存数据库,数据处理和分析完全在 RAM 中进行,无需从基于磁盘的系统中检索数据。而且,内存数据库也是基于分布式架构构建。这意味着,与基于磁盘的单节点数据库模型相比,内存数据库可以并行处理数据,提高速度。
如何利用大数据?
如何使大数据的价值体现到企业运营中?只有通过大数据分析企业获得相关且可据以采取行动的洞察,达到帮助企业显著改善业务运营的目的,大数据的价值才真正得到体现。在为大数据转型做准备时,企业应确保其系统和流程都具备采集、存储和分析大数据的能力。
- 采集大数据。很多大数据是由来自各种不同数据源的大量非结构化数据组成。传统的磁盘数据库和数据集成机制根本无法处理这种数据。要想有效管理大数据,企业需要采用专为大数据采集打造的内存数据库解决方案和软件解决方案。
- 存储大数据。顾名思义,大数据的数据量非常大。许多企业都是采用本地存储解决方案管理现有数据。为了节约成本,他们希望可以继续利用这些存储库满足大数据处理需求。但是,大数据只有在不受大小和内存限制约束的情况下才能发挥最大效用。如果企业一开始没有将云存储解决方案融入大数据模型中,那么几个月后往往会追悔莫及。
- 分析大数据。如果不将人工智能和机器学习技术应用于大数据分析,就无法充分发挥大数据的潜能。大数据的五大特性之一是“处理速度快”。要想让大数据洞察有效且具有价值,速度至关重要。分析流程必须能够自我优化,并能够定期从经验中学习,而这些只有利用人工智能和现代数据库技术才能做到。
大数据应用
大数据提供的洞察和深度学习几乎能为任何企业或行业带来收益。但是,具有复杂运营职能的大型组织通常能够最有效地利用大数据。
- 金融
Journal of Big Data 发表的一项 2020 年研究指出,大数据“在改变金融服务行业方面发挥着重要作用,尤其是在贸易和投资、税务改革、欺诈检测和调查、风险分析以及自动化等领域。”大数据还有助于推动金融行业转型。通过分析客户数据和反馈,企业能够获得宝贵的洞察,进而提升客户体验和满意度。交易数据集是世界上发展速度最快和规模最大的数据集。如今,越来越多的企业采用先进的大数据管理解决方案,这有助于银行和金融机构保护这些数据,并通过对客户和企业有利的方式使用这些数据。 - 医疗
大数据分析可以帮助医疗专业人员做出更准确的、基于证据的诊断。此外,大数据还有助于医院管理人员发现趋势,管理风险,并最大限度地减少不必要的支出,将更多的预算投入到患者护理和研究领域。在新冠疫情期间,全球的研究科学家都在努力寻找有效的防控措施,而大数据在这个过程中发挥着巨大作用。2020 年 7 月《科学家》(The Scientist) 杂志发表了一篇文章,介绍了医疗团队如何通过协作和分析大数据对抗新冠病毒:“我们以前所未有的方式利用大数据和数据科学工具和资源,改变了传统的临床科学研究方法。” - 运输和物流
亚马逊效应 (Amazon Effect) 指的是:随着亚马逊设立次日交付的标准,客户现在对他们在线订购的任何商品都要求达到这样的送货速度。美国 Entrepreneur(企业家)杂志指出,亚马逊效应带来的直接结果是,“‘最后一英里’物流竞赛将越来越激烈。”物流公司越来越依赖大数据分析来优化路线规划、装载整合和燃油效率提升措施。 - 教育
在疫情期间,世界各地的教育机构不得不重新设计课程和教学方法,来支持远程学习。在这个过程中,一个主要的挑战是:找到可靠的方法来分析和评估学生的成绩,以及线上教学的整体效果。2020 年,一篇关于大数据对教育和在线学习的影响的文章指出:“大数据让教师对开展个性化教育、发展混合式学习、革新评估系统和促进终身学习等方面更有信心。” - 能源和公用事业
根据美国劳工统计局的数据,公用事业企业通常都是依靠抄表员偶尔读取指针式仪表上的读数,花在抄表员身上的开支超过 14 亿美元。而智能仪表读取器每天可以提供多次数字数据,而且,借助大数据分析,企业还能够根据获得的洞察,提高能源使用效率,并提高定价和预测的准确性。此外,现场员工从读表任务中解放出来之后,通过捕获和分析数据,企业可以更快地将他们分配到更紧急的维修和升级任务中。