结构化的数据一般是指可以使用关系型数据库表示和存储,可以用二维表来逻辑表达实现的数据;非结构化数据顾名思义,就是没有固定结构的数据;结构化的数据一般是指可以使用关系型数据库表示和存储。
一、结构化数据、非结构化数据、半结构化数据
结构化数据
结构化的数据一般是指可以使用关系型数据库表示和存储,可以用二维表来逻辑表达实现的数据。
一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的,存储在数据库中;能够用数据或统一的结构加以表示,如数字、符号;能够用二维表结构来逻辑表达实现,包含属性和元组,如:成绩单就是属性,90分就是其对应的元组。
传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示。而结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。
对于结构化数据来讲通常是先有结构再有数据,而对于半结构化数据来说则是先有数据再有结构。
半结构化数据
半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层,数据的结构和内容混在一起,没有明显的区分,因此,它也被称为自描述的结构,简单的说半结构化数据就是介于完全结构化数据和完全无结构的数据之间的数据。例如:HTML文档,JSON,XML和一些NoSQL数据库等就属于半结构化数据。
非结构化数据
非结构化数据顾名思义,就是没有固定结构的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。
典型的人为生成的非结构化数据包括:
文本文件:文字处理、电子表格、演示文稿、电子邮件、日志。
社交媒体:来自新浪微博、微信、QQ、Facebook,Twitter,LinkedIn等平台的数据。
网站: YouTube,Instagram,照片共享网站。
移动数据:短信、位置等。
通讯:聊天、即时消息、电话录音、协作软件等。
媒体:MP3、数码照片、音频文件、视频文件。
业务应用程序:MS Office文档、生产力应用程序。
典型的机器生成的非结构化数据包括:
卫星图像:天气数据、地形、军事活动。
科学数据:石油和天然气勘探、空间勘探、地震图像、大气数据。
数字监控:监控照片和视频。
传感器数据:交通、天气、海洋传感器。
延伸阅读:
二、非结构化数据背后的价值
结构化数据与非结构化数据两者之间最大的区别在于分析的便利性。针对结构化数据存在成熟的分析工具,但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段。
除此之外,非结构化数据比结构化数据要多得多,随着网络技术的发展,特别是Internet和其技术的飞快发展,使得非结构化数据的数量日趋增大。
据IDC研究表明,到2025年,全球数据量将会从2016年的16 ZB上升至163ZB。知名研究机构Garter也表示,全球信息量正在以59% 以上的年增长率快速增长。
而在这些数据中,结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,日志文件、机器数据等又占据非结构化数据的90%。