目录

聚类和降维有什么区别与联系

聚类和降维的区别与联系是:降维就是复杂的高维数据信息简化为更容易阅读的低维数据信息,就像素描把三维的立体图形绘制在二维的平面上;聚类就是归类,按照一定的标准来进行归类就是聚类。

一、聚类和降维的区别与联系

区别

降维就是复杂的高维数据信息简化为更容易阅读的低维数据信息,就像素描把三维的立体图形绘制在二维的平面上,而我们可以通过绘制而成的二维平面来了解到三维物体本身是什么,却不用我们到作者的绘画现场去看画的东西到底是什么样。我们需要通过对单细胞转录组数据降维,来获得更容易阅读的低维数据信息。

聚类就是归类,按照一定的标准来进行归类就是聚类。我们得到降维后的数据后,就能根据聚类算法对细胞进行分群聚类,通过可视化图来呈现更直观的效果。这里,我们还是以树叶比作细胞来方便大家理解。我们把不同年份的叶子比作不同种类的细胞来进行分类。由于上述摘叶子(降维)的方式不同,我们最终呈现出来分叶子(聚类)的可视化情况也会有所不同。

相同或相近年份的叶子会在一定程度上相似(如颜色、大小、叶脉纹路等),就好比我们同类细胞或者相近来源的细胞,他们某些基因表达量是相近的。将不同年份的叶子颜色、大小、叶脉纹路等的差异理解为不同细胞的基因的表达情况和表达量的差异。

联系

降维和聚类是同时进行的两个独立过程,将两者结果合并才是我们最终得到的可视化结果。但这个合并过程中一定会存在矛盾的地方,这也是影响了可视化图中分群边界与聚集远近的最主要原因。

PCA是经典的线性降维方式,每一个维度代表了数据的一个特征信息,用越多的特征信息去描述一个数据就越接近真实;取用的维度越少,信息的丢失量越多。而在可视化中,我们只能使用“最有特色”的两个或三个主成分去描述数据,这就使得大量的细胞无法被良好地区分开,最终呈现的结果就是不同类型的细胞类型之间的边界不明显。

此外,还需要提及的一点是,并不是所有聚类分出的同种细胞都会降维在一起。在可视化图中相同的细胞类型可能也会有较远的分布。

tSNE的算法使得高维的相近距离在低维观测的时候有一定几率变成较远距离,可视化图上就会看起来不像是同一簇细胞。而UMAP虽然能比tSNE更好地将相似细胞簇聚集,不同类细胞簇分开,但当UMAP的计算距离和聚类的计算距离差异较大时,可视化结果就也会显示同一个细胞聚类被分了开来。

延伸阅读:

二、搭梯子摘(tSNE)

以一个随机的位置作为起始点,架个梯子爬上去摘,每次摘一部分就得爬到树下放叶子,然后再爬上梯子继续摘,那整个过程就会变得十分漫长,耗时耗力,但优点是能有效地还原一部分树生长高度的位置信息,并能将生长在一起的叶子放在同一摞。

这种方法与之对应的降维法便是非线性降维tSNE算法,由于tSNE的计算过程较为复杂且耗时长,往往需要先通过PCA进行预降维处理。PCA降维过的数据再进行tSNE降维(降至二维或三维)实现可视化。而tSNE算法其实主要就是通过将临近的相似点距离收缩,较远的(非相似)点距离增大将各集群边界分开。

以上就是关于聚类和降维有什么区别与联系的内容希望对大家有帮助。