数据分区和数据放置是逻辑和物理的关系,逻辑是顶层设计,物理是具体实现,逻辑设计决定物理实现,物理约束反过来影响逻辑设计。数据分区就是设计球和盒子对应关系的过程,数据放置就是球在盒子里面怎么摆放。
一、在分布式数据库存储中,数据分区和数据放置的区别
数据分区和数据放置是逻辑和物理的关系,逻辑是顶层设计,物理是具体实现,逻辑设计决定物理实现,物理约束反过来影响逻辑设计。数据分区就是设计球和盒子对应关系的过程,数据放置就是球在盒子里面怎么摆放。
举个例子,
给你10个乒乓球,要求放入3个盒子里。
如何决定哪个球放入哪个盒子?比如
- 按照编号大小:0-2放入盒子A,3-5放入盒子B,6-9放入盒子C
- 按照编号特征:对3取余==0放入盒子A,取余==1放入盒子B,取余==2放入盒子C
- …
上面的策略就是选择数据分区的过程,既然有这么多分区方法可以选,选哪个较好?有一个比较重要的考虑因素是,3个盒子到底是什么特征?比如是否一样大小。比如我告诉你盒子A和B只能放1个,盒子C可以放100个,那么上面两种策略都不行。如果我告诉你,盒子ABC都能放100个,那么上面两种策略都可以。具体到一个盒子里面,怎么放也有讲究,比如随便扔,或者用格子一个个放。
对比上面说的,数据分区就是设计球和盒子对应关系的过程,数据放置就是球在盒子里面怎么摆放。分配策略决定了如何利用每个盒子,但是盒子的特性会影响分配的策略,数据分区和数据放置也是如此,是互相融合不可分割的,所以有时候放在一起说也不奇怪。
延伸阅读:
二、字符集(Character set)是什么
是多个字符(英文字符,汉字字符,或者其他国家语言字符)的集合,字符集种类较多,每个字符集包含的字符个数不同。
特点:
①字符编码方式是用一个或多个字节表示字符集中的一个字符
②每种字符集都有自己特有的编码方式,因此同一个字符,在不同字符集的编码方式下,会产生不同的二进制
常见字符集:
ASCII字符集:基于罗马字母表的一套字符集,它采用1个字节的低7位表示字符,高位始终为0。
LATIN1字符集:相对于ASCII字符集做了扩展,仍然使用一个字节表示字符,但启用了高位,扩展了字符集的表示范围。
GBK字符集:支持中文,字符有一字节编码和两字节编码方式。
UTF8字符集:Unicode字符集的一种,是计算机科学领域里的一项业界标准,支持了所有国家的文字字符,utf8采用1-4个字节表示字符。