通过与 Jira 对比,让您更全面了解 PingCode

  • 首页
  • 需求与产品管理
  • 项目管理
  • 测试与缺陷管理
  • 知识管理
  • 效能度量
        • 更多产品

          客户为中心的产品管理工具

          专业的软件研发项目管理工具

          简单易用的团队知识库管理

          可量化的研发效能度量工具

          测试用例维护与计划执行

          以团队为中心的协作沟通

          研发工作流自动化工具

          账号认证与安全管理工具

          Why PingCode
          为什么选择 PingCode ?

          6000+企业信赖之选,为研发团队降本增效

        • 行业解决方案
          先进制造(即将上线)
        • 解决方案1
        • 解决方案2
  • Jira替代方案

25人以下免费

目录

有人能说清分库分表、MPP和分布式数据库的区别

分库分表做法,主要是因为早期单机数据库(主要还是MySQL这种低成本场景)下无法在一个库一张表来承载同一业务表下所有的数据,因而将数据划分到不同的物理库表中去,从业务视角来形成一个大的逻辑表。

一、分库分表、MPP和分布式数据库的区别

1)分库分表做法,主要是因为早期单机数据库(主要还是MySQL这种低成本场景)下无法在一个库一张表来承载同一业务表下所有的数据,因而将数据划分到不同的物理库表中去,从业务视角来形成一个大的逻辑表。这样的话能够充分利用水平拆分能力,来存储超大的数据集。一般拆分逻辑依赖业务给出相关的字段,配合分表规则,来做hash、range的拆分。这种方式一般通过一些富客户端来支持用户sql,好处很直观,针对点查询效率很高,插入数据效率高,但问题点很多,也不太好解决,主要在于涉及到不同分库的sql操作,比如怎么支持跨库表join,怎么支持分布式事务来更新,如果sql中不带分区键导致全逻辑表查询等等。另外,数据量越来越大时有热点问题怎么办,数据怎么重分布,宕机怎么恢复,路由表变更怎么办,怎么做多个实例的服务发现,怎么做读写分离,等等。最终就是让业务上做妥协,最终一致性,不支持join,允许局部节点故障,等等。

2)本质上,分库分表中间件相当于把数据库解决不了的问题推到业务侧,让业务参与解决或者妥协。随着云计算平台分布式数据库越来越强大,分库分表的技术会慢慢的退出历史舞台。简单来说,分布式数据库把上面的问题尽量的在数据系统内部解决掉,给客户的接口非常简单,统一的endpoint,标准的数据库协议,完整的sql支持能力,等等,但内部一样有各种数据分区逻辑。分布式数据库从广义上来说,就是实现数据库语义的分布式架构下的系统,像云上各种OLTP和OLAP产品,应该都可以称之为分布式数据库。分布式数据库中最重要的就是数据怎么摆放,数据在多个机器上平均分摊持有一份数据做sharding,还是多个节点相互复制一份数据做主备,还是利用底层共享存储共享一份完整数据集,衍生出不一样的系统架构和能力。

3)mpp数据库主要区别于smp数据库。后者一般是单机架构,而单机能力毕竟有限,在OLAP计算数据量非常大的时候,单机数据库的分析能力非常有限。mpp数据库构建一套分布式计算集群(mpp数据库肯定是分布式系统,但狭义上应该不算那些只考虑数据切片的分布式数据库),增强计算能力,在计算中再针对数据集做切片调度执行等,最终希望能实现计算力的水平扩展。

总结一下,这些概念本身不是完全无关的,相互有关系。我接触过的发展过程:

单机数据库,到主备分布式数据库(解决高可用和数据高可靠),到分库分表(sharding解决横向扩展)+主备分布式数据库(解决部分数据的可用和数据可靠性,全局数据无强一致保障),再到主备+内部自动分区和复杂分布式计算的分布式数据库(数据,语义,能力,免运维都很强),再到数据层共享存储、计算层横向弹性扩缩容的分布式数据库架构(能力越来越强,成本、弹性、故障恢复速度、灾备等),等等。

无论上单机还是分布式数据库,针对单个sql,最终只会在一个节点上执行完成,而mpp数据库会对这个sql执行计算任务分解,靠整个集群的算力分布式调度计算,最后整体完成sql。这个可能是与分布式数据库的差异。但分布式数据库与mpp数据库不是一个差异化很大的概念,技术实现上也会有很多重叠的。

延伸阅读:

二、全文索引

FULLTEXT(全文)索引,仅可用于MyISAM和InnoDB,针对较大的数据,生成全文索引非常的消耗时间和空间。对于文本的大对象,或者较大的CHAR类型的数据,如果使用普通索引,那么匹配文本前几个字符还是可行的,但是想要匹配文本中间的几个单词,那么就要使用LIKE %word%来匹配,这样需要很长的时间来处理,响应时间会大大增加,这种情况,就可使用时FULLTEXT索引了,在生成FULLTEXT索引时,会为文本生成一份单词的清单,在索引时及根据这个单词的清单来索引。FULLTEXT可以在创建表的时候创建,也可以在需要的时候用ALTER或者CREATE INDEX来添加。

相关文章