QQ这种大型数据库是怎么实现数据瞬间查询的

不要总觉得大型互联网公司的数据存储结构会有多复杂。实际上简单得很，大部分都比你在大学 SQL 课上创建的数据库还要简单。越核心的数据，其存储结构越简单。简单的才可靠。

一、QQ这种大型数据库是怎么实现数据瞬间查询的

不要总觉得大型互联网公司的数据存储结构会有多复杂。实际上简单得很，大部分都比你在大学 SQL 课上创建的数据库还要简单。越核心的数据，其存储结构越简单。简单的才可靠。

像 QQ 这种，最核心的数据，一是用户信息，二是好友关系。我可以打包票，它们的存储结构只会是最简单的 key-value 格式，不会有第二种选择。

至于 key-value 怎么保存在内存或者硬盘上，倒是可以有多种选择，哈希表或者树状结构或者你想搞 LSM tree 什么的都可以，但是都不会超过大二的知识点。

举个例子，根据 QQ 号查用户信息。Key 是 QQ 号、value 是用户信息，就完了。

什么，你说还要按昵称查询、按邮箱查询？简单，每种查询条件再来一个 key，用 key-value 格式再保存一个 “昵称–>QQ号” “邮箱–>QQ号”的映射。这些核心数据都是读量远大于写量，所以不会在乎写的时候多写几个 key，要的是读快。

再比如说，好友关系。这也好说，每个用户一个 key，value 就是他的好友 ID 列表（排好序）。查好友的时候直接按用户拉出他的好友列表。查共同好友？把两个用户的好友列表都拉出来做交集，都是排好序的，取交集也就是 O(n) 的复杂度。

加好友的时候怎么办？往两边用户的 key 都写啊。读量远大于写量，写不怕麻烦，只要读快就行。

（公众号、微博这种带有 B2C 特性的关系链会复杂一点，因为关注者数量无上限。）

好了，存储格式定下来了，再说怎么查。

毕竟查询量巨大，一台机器扛不住，那就分多台。把 key 分一下段、或者哈希一下，分散到多台机器上，每台机器只保存全量数据的一部分。

基本原理就是这样，没有什么特别玄乎的东西。

实际工程上的努力，基本都在保证可用性和一致性上面。

可用性：机器多了，总有机器会死机，有硬盘会坏，有机房会掉电，有光缆会被挖断。怎么办？每份数据都存多份，放到多台机器上。保存相同数据的机器分布到多个机房甚至多个城市，不可能大家一起坏。当然，这样写的时候会麻烦点，别忘了，大多数数据都是读多写少的，写不怕麻烦。

一致性：同一份数据在多机保存了多份以后，就得保证不能出现不一致的数据。这个才是最难的。

在互联网公司里，要想见到复杂的表结构、复杂的 JOIN、FOREIGN KEY 等，最可能的是在内部系统里面。内部系统的开发，在互联网的工程师里面是处于鄙视链比较低端的……

延伸阅读：

二、数据库的查询功能实现原理

数据库查询是数据库的最主要功能之一。我们都希望查询数据的速度能尽可能的快，因此数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法当然是顺序查找（linear search），这种复杂度为O(n)的算法在数据量很大时显然是糟糕的，好在计算机科学的发展提供了很多更优异的查找算法，例如二分查找（binary search）、二叉树查找（binary tree search）等。如果稍微分析一下会发现，每种查找算法都只能应用于特定的数据结构之上，例如二分查找要求被检索数据有序，而二叉树查找只能应用于二叉查找树上，但是数据本身的组织结构不可能完全满足各种数据结构（例如，理论上不可能同时将两列都按顺序进行组织），所以，在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法。这种数据结构，就是索引。