如何用python去聚类数据

用Python聚类数据的步骤包括：选择合适的聚类算法、预处理数据、选择适当的距离度量、实施聚类算法、评估聚类结果。 其中，选择合适的聚类算法是关键，因为不同的算法适用于不同类型的数据。本文将详细介绍如何用Python进行数据聚类，包括常用的K-means、层次聚类和DBSCAN算法，并讨论如何评估聚类效果。

一、选择合适的聚类算法

聚类是一种无监督学习方法，用于将数据集分成多个组，使组内数据相似度最大化。常见的聚类算法包括K-means、层次聚类和DBSCAN等。

1.1 K-means聚类

K-means是一种基于质心的聚类算法，适用于数值型数据。它通过迭代优化质心位置来最小化组内差异。

from sklearn.cluster import KMeans
import numpy as np
示例数据
data = np.array([[1, 2], [1, 4], [1, 0],
                 [4, 2], [4, 4], [4, 0]])
创建KMeans模型
kmeans = KMeans(n_clusters=2, random_state=0).fit(data)
print(kmeans.labels_)
print(kmeans.cluster_centers_)

1.2 层次聚类

层次聚类通过构建层次树来进行聚类，可以分为自下而上（agglomerative）和自上而下（divisive）两种方式。

from scipy.cluster.hierarchy import dendrogram, linkage
import matplotlib.pyplot as plt
示例数据
data = np.array([[1, 2], [1, 4], [1, 0],
                 [4, 2], [4, 4], [4, 0]])
使用单链接法进行层次聚类
Z = linkage(data, 'single')
绘制层次树
dendrogram(Z)
plt.show()

1.3 DBSCAN聚类

DBSCAN是一种基于密度的聚类算法，适用于发现任意形状的簇，尤其适合处理含噪声数据集。

from sklearn.cluster import DBSCAN
示例数据
data = np.array([[1, 2], [1, 4], [1, 0],
                 [4, 2], [4, 4], [4, 0]])
创建DBSCAN模型
db = DBSCAN(eps=1, min_samples=2).fit(data)
print(db.labels_)

二、预处理数据

数据预处理是聚类前的关键步骤，直接影响聚类效果。常见的预处理步骤包括数据清洗、标准化和降维。

2.1 数据清洗

数据清洗包括处理缺失值、去除异常值和数据类型转换。

import pandas as pd
示例数据
data = {'A': [1, 2, None, 4, 5], 'B': [1, 2, 3, None, 5]}
df = pd.DataFrame(data)
处理缺失值
df.fillna(df.mean(), inplace=True)

2.2 数据标准化

数据标准化将不同量纲的数据转换到相同的尺度，使其在聚类时具有同等重要性。

from sklearn.preprocessing import StandardScaler
示例数据
data = np.array([[1, 2], [1, 4], [1, 0],
                 [4, 2], [4, 4], [4, 0]])
标准化数据
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

2.3 数据降维

在高维数据上进行聚类可能导致计算复杂度增加，常用的降维方法包括PCA和t-SNE。

from sklearn.decomposition import PCA
示例数据
data = np.array([[1, 2], [1, 4], [1, 0],
                 [4, 2], [4, 4], [4, 0]])
使用PCA降维
pca = PCA(n_components=2)
data_pca = pca.fit_transform(data)

三、选择适当的距离度量

距离度量是聚类算法的核心，常用的距离度量包括欧氏距离、曼哈顿距离和余弦相似度。

3.1 欧氏距离

欧氏距离是最常用的距离度量，适用于数值型数据。

from scipy.spatial.distance import euclidean
示例数据
point1 = [1, 2]
point2 = [4, 6]
计算欧氏距离
distance = euclidean(point1, point2)
print(distance)

3.2 曼哈顿距离

曼哈顿距离适用于分量差异较大的数据。

from scipy.spatial.distance import cityblock
示例数据
point1 = [1, 2]
point2 = [4, 6]
计算曼哈顿距离
distance = cityblock(point1, point2)
print(distance)

3.3 余弦相似度

余弦相似度适用于文本和高维稀疏数据。

from scipy.spatial.distance import cosine
示例数据
point1 = [1, 2, 3]
point2 = [4, 5, 6]
计算余弦相似度
similarity = 1 - cosine(point1, point2)
print(similarity)

四、实施聚类算法

实施聚类算法包括选择适当的超参数、训练模型和预测结果。

4.1 K-means聚类的实施

K-means算法的关键超参数是簇的数量k，常用的方法包括肘部法和轮廓系数来选择k值。

from sklearn.metrics import silhouette_score
示例数据
data = np.array([[1, 2], [1, 4], [1, 0],
                 [4, 2], [4, 4], [4, 0]])
尝试不同的k值
for k in range(2, 5):
    kmeans = KMeans(n_clusters=k, random_state=0).fit(data)
    score = silhouette_score(data, kmeans.labels_)
    print(f'k={k}, silhouette_score={score}')

4.2 层次聚类的实施

层次聚类的关键是选择合适的链接方法，如单链接、完全链接和平均链接。

from scipy.cluster.hierarchy import fcluster
示例数据
data = np.array([[1, 2], [1, 4], [1, 0],
                 [4, 2], [4, 4], [4, 0]])
使用平均链接法进行层次聚类
Z = linkage(data, 'average')
clusters = fcluster(Z, t=2, criterion='maxclust')
print(clusters)

4.3 DBSCAN聚类的实施

DBSCAN的关键超参数是eps和min_samples，可以通过k距离图来选择合适的eps值。

from sklearn.neighbors import NearestNeighbors
import matplotlib.pyplot as plt
示例数据
data = np.array([[1, 2], [1, 4], [1, 0],
                 [4, 2], [4, 4], [4, 0]])
寻找k距离
neighbors = NearestNeighbors(n_neighbors=2)
neighbors_fit = neighbors.fit(data)
distances, indices = neighbors_fit.kneighbors(data)
distances = np.sort(distances, axis=0)
distances = distances[:, 1]
plt.plot(distances)
plt.show()

五、评估聚类结果

评估聚类结果包括内部评价指标和外部评价指标，常用的方法包括轮廓系数、调整兰德指数和互信息。

5.1 轮廓系数

轮廓系数衡量簇内相似度和簇间差异度，是一种无监督的内部评价指标。

from sklearn.metrics import silhouette_score
示例数据
data = np.array([[1, 2], [1, 4], [1, 0],
                 [4, 2], [4, 4], [4, 0]])
创建KMeans模型
kmeans = KMeans(n_clusters=2, random_state=0).fit(data)
计算轮廓系数
score = silhouette_score(data, kmeans.labels_)
print(f'Silhouette Score: {score}')

5.2 调整兰德指数

调整兰德指数用于衡量聚类结果与真实标签的相似度，是一种有监督的外部评价指标。

from sklearn.metrics import adjusted_rand_score
示例数据
true_labels = [0, 0, 0, 1, 1, 1]
pred_labels = [0, 0, 0, 1, 1, 1]
计算调整兰德指数
score = adjusted_rand_score(true_labels, pred_labels)
print(f'Adjusted Rand Index: {score}')

5.3 互信息

互信息用于衡量两个分布之间的相关性，适用于评估聚类结果与真实标签的相似度。

from sklearn.metrics import normalized_mutual_info_score
示例数据
true_labels = [0, 0, 0, 1, 1, 1]
pred_labels = [0, 0, 0, 1, 1, 1]
计算互信息
score = normalized_mutual_info_score(true_labels, pred_labels)
print(f'Normalized Mutual Information: {score}')

六、应用实例

在本节中，我们将综合运用上述方法，对一个实际的数据集进行聚类分析，并评估聚类效果。

6.1 数据集介绍

我们将使用著名的Iris数据集，该数据集包含150个样本，每个样本有4个特征，分为3个类别。

from sklearn.datasets import load_iris
import pandas as pd
加载数据集
iris = load_iris()
data = iris.data
target = iris.target
df = pd.DataFrame(data, columns=iris.feature_names)
df['target'] = target

6.2 数据预处理

对数据进行标准化处理。

# 标准化数据
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

6.3 聚类分析

使用K-means算法对数据进行聚类，并选择最佳k值。

# 尝试不同的k值
for k in range(2, 6):
    kmeans = KMeans(n_clusters=k, random_state=0).fit(data_scaled)
    score = silhouette_score(data_scaled, kmeans.labels_)
    print(f'k={k}, silhouette_score={score}')

选择k=3进行最终聚类。

# 创建KMeans模型
kmeans = KMeans(n_clusters=3, random_state=0).fit(data_scaled)
添加聚类标签到数据集
df['cluster'] = kmeans.labels_

6.4 评估聚类效果

使用调整兰德指数和互信息对聚类结果进行评估。

# 计算调整兰德指数
ari_score = adjusted_rand_score(df['target'], df['cluster'])
print(f'Adjusted Rand Index: {ari_score}')
计算互信息
nmi_score = normalized_mutual_info_score(df['target'], df['cluster'])
print(f'Normalized Mutual Information: {nmi_score}')

通过以上步骤，我们完成了数据的聚类分析，并评估了聚类效果。选择合适的聚类算法、预处理数据和评估聚类结果是成功进行数据聚类的关键步骤。

如何用python去聚类数据

一、选择合适的聚类算法

1.1 K-means聚类

示例数据

创建KMeans模型

1.2 层次聚类

示例数据

使用单链接法进行层次聚类

绘制层次树

1.3 DBSCAN聚类

示例数据

创建DBSCAN模型

二、预处理数据

2.1 数据清洗

示例数据

处理缺失值

2.2 数据标准化

示例数据

标准化数据

2.3 数据降维

示例数据

使用PCA降维

三、选择适当的距离度量

3.1 欧氏距离

示例数据

计算欧氏距离

3.2 曼哈顿距离

示例数据

计算曼哈顿距离

3.3 余弦相似度

示例数据

计算余弦相似度

四、实施聚类算法

4.1 K-means聚类的实施

示例数据

尝试不同的k值

4.2 层次聚类的实施

示例数据

使用平均链接法进行层次聚类

4.3 DBSCAN聚类的实施

示例数据

寻找k距离

五、评估聚类结果

5.1 轮廓系数

示例数据

创建KMeans模型

计算轮廓系数

5.2 调整兰德指数

示例数据

计算调整兰德指数

5.3 互信息

示例数据

计算互信息

六、应用实例

6.1 数据集介绍

加载数据集

6.2 数据预处理

6.3 聚类分析

添加聚类标签到数据集

6.4 评估聚类效果

计算互信息

相关问答FAQs：