MPP数据库有对SQL的完整兼容和一些事务的处理能力,在实际的使用场景中,如果数据扩展需求不是特别大,需要的处理节点不多,数据都是结构化的数据,习惯使用传统的RDBMS的很多特性的场景,可以考虑MPP。常用的MPP数据库包括GreenPlum、Vertica、Sybase IQ、TD Aster Data等。
一、什么是MPP?
MPP (Massively Parallel Processing),即大规模并行处理。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。
MPP架构特征
任务并行执行;数据分布式存储(本地化);分布式计算;私有资源;横向扩展;Shared Nothing架构。
二、什么是MPP数据库?
MPP数据库是一款 Shared Nothing架构的分布式并行结构化数据库集群,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算平台,并广泛地用于支撑各类数据仓库系统、BI 系统和决策支持系统
三、MPP数据库的使用场景?
MPP数据库有对SQL的完整兼容和一些事务的处理能力,对于用户来说,在实际的使用场景中,如果数据扩展需求不是特别大,需要的处理节点不多,数据都是结构化的数据,习惯使用传统的RDBMS的很多特性的场景,可以考虑MPP,例如Greenplum/Gbase等。
四、MPPDB、Hadoop与传统数据库技术对比与适用场景
MPPDB与Hadoop都是将运算分布到节点中独立运算后进行结果合并(分布式计算),但由于依据的理论和采用的技术路线不同而有各自的优缺点和适用范围。
综合而言,Hadoop和MPP两种技术的特定和适用场景为:
Hadoop在处理非结构化和半结构化数据上具备优势,尤其适合海量数据批处理等应用要求。MPP适合替代现有关系数据机构下的大数据处理,具有较高的效率。
MPP适合多维度数据自助分析、数据集市等;Hadoop适合海量数据存储查询、批量数据ETL、非机构化数据分析(日志分析、文本分析)等。
五、常用的MPP数据库有哪些?
GreenPlum;
Vertica;
Sybase IQ;
TD Aster Data;
一般来说,我们都会更倾向于GreenPlum,而且阿里的云数据库HybirdDB也是基于GreenPlum的开源项目。
六、MPP数据库应用领域
大数据分析:MPP数据库做大数据计算或分析平台非常适合,例如:数据仓库系统、历史数据管理系统、数据集市等。
有很强的并行数据计算能力和海量数据存储能力,但是它不擅长高频的小规模数据插入、修改、删除,每次事务处理的数据量不大。这类数据衡量指标是TPS,适用的系统是OLTP数据库。所以,报表统计分析、运维统计数据,快速生成报表展示都可以使用mpp数据库。
符合几个条件:不需要更新数据,不需要频繁重复离线计算,不需要并发大。
有上百亿以上离线数据,不更新,结构化,需要各种复杂分析的sql语句,那就可以选择他。几秒、几十秒立即返回你想要的分析结果。例如sum,count,group by,order,好几层查询嵌套,在几百亿数据里分分钟出结果。这类的数据库有,clickhouse,greenplum
以上就是关于Mpp数据库的知识希望对大家有帮助。