如何用python自带数据集

使用Python自带的数据集是非常方便的，因为Python中有多个库内置了一些经典的数据集供学习和研究使用。通过使用Python自带的数据集，可以方便地进行数据分析、机器学习模型训练、数据可视化等操作，常用的库包括scikit-learn、seaborn、statsmodels等。本文将详细介绍如何使用这些库内置的数据集，并提供一些具体的实例。

我们以scikit-learn为例，来详细介绍如何加载和使用其自带的数据集。

一、SCIKIT-LEARN中的数据集

1、加载数据集

scikit-learn提供了多种经典的数据集，可以通过sklearn.datasets模块进行加载。以下是一些常用的数据集：

load_iris(): 鸢尾花数据集
load_digits(): 手写数字数据集
load_wine(): 葡萄酒数据集
load_breast_cancer(): 乳腺癌数据集

这些数据集可以通过简单的函数调用来加载。例如：

from sklearn.datasets import load_iris
加载鸢尾花数据集
iris = load_iris()
数据集的特征
print(iris.data)
数据集的标签
print(iris.target)

2、数据集结构

这些数据集一般是以字典的形式存储的，包含以下几个部分：

data: 特征数据
target: 标签数据
DESCR: 数据集的描述
feature_names: 特征名称
target_names: 标签名称

通过访问这些键，我们可以获取到数据集的各个部分。例如：

# 打印数据集描述
print(iris.DESCR)
打印特征名称
print(iris.feature_names)
打印标签名称
print(iris.target_names)

3、数据集转换

有时候我们需要将数据集转换为其他形式，比如Pandas DataFrame。可以通过以下方式进行转换：

import pandas as pd
from sklearn.datasets import load_iris
加载鸢尾花数据集
iris = load_iris()
转换为DataFrame
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['target'] = iris.target
打印前五行数据
print(iris_df.head())

二、SEABORN中的数据集

seaborn是一个用于数据可视化的Python库，也自带了一些经典的数据集，可以通过seaborn.load_dataset()函数来加载。以下是一些常用的数据集：

tips: 小费数据集
flights: 飞行数据集
iris: 鸢尾花数据集

1、加载数据集

可以通过以下方式加载数据集：

import seaborn as sns
加载小费数据集
tips = sns.load_dataset('tips')
打印前五行数据
print(tips.head())

2、数据集结构

seaborn中的数据集一般是以Pandas DataFrame的形式存储的，便于进行数据分析和可视化。例如：

# 打印数据集信息
print(tips.info())
打印数据集描述
print(tips.describe())

3、数据可视化

seaborn提供了丰富的可视化功能，可以方便地对数据集进行可视化。例如：

import matplotlib.pyplot as plt
绘制小费数据集的箱线图
sns.boxplot(x='day', y='total_bill', data=tips)
plt.show()

三、STATSMODELS中的数据集

statsmodels是一个用于统计建模的Python库，也提供了一些经典的数据集，可以通过statsmodels.datasets模块进行加载。以下是一些常用的数据集：

get_rdataset('mtcars'): 汽车数据集
get_rdataset('iris'): 鸢尾花数据集
get_rdataset('airquality'): 空气质量数据集

1、加载数据集

可以通过以下方式加载数据集：

import statsmodels.api as sm
加载汽车数据集
mtcars = sm.datasets.get_rdataset('mtcars')
打印数据集描述
print(mtcars.__doc__)
打印前五行数据
print(mtcars.data.head())

2、数据集结构

statsmodels中的数据集一般是以字典的形式存储的，包含以下几个部分：

data: 数据
title: 数据集标题
package: 数据集来源包
__doc__: 数据集描述

通过访问这些键，我们可以获取到数据集的各个部分。例如：

# 打印数据集标题
print(mtcars.title)
打印数据集来源包
print(mtcars.package)

四、使用数据集进行机器学习

1、数据预处理

在使用数据集进行机器学习之前，通常需要进行数据预处理。常见的数据预处理步骤包括：

数据清洗：处理缺失值、异常值等问题
特征工程：特征选择、特征提取、特征转换等
数据标准化：对数据进行归一化、标准化等处理

例如，对于鸢尾花数据集，可以进行以下数据预处理：

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
加载鸢尾花数据集
iris = load_iris()
划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)
数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

2、模型训练与评估

在数据预处理完成后，可以进行模型训练与评估。以下是使用scikit-learn中的K近邻算法对鸢尾花数据集进行分类的示例：

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
初始化K近邻分类器
knn = KNeighborsClassifier(n_neighbors=3)
训练模型
knn.fit(X_train, y_train)
预测测试集
y_pred = knn.predict(X_test)
评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

3、模型调参与优化

为了提高模型的性能，可以进行模型调参与优化。例如，可以使用交叉验证来选择最佳的超参数：

from sklearn.model_selection import GridSearchCV
定义参数网格
param_grid = {'n_neighbors': [1, 3, 5, 7, 9]}
初始化网格搜索
grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5)
进行网格搜索
grid_search.fit(X_train, y_train)
打印最佳参数
print(f'Best Parameters: {grid_search.best_params_}')
使用最佳参数训练模型
best_knn = grid_search.best_estimator_
best_knn.fit(X_train, y_train)
预测测试集
y_pred = best_knn.predict(X_test)
评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'Optimized Accuracy: {accuracy:.2f}')

五、数据可视化

数据可视化是数据分析中非常重要的一环，可以帮助我们更直观地理解数据的分布和特征。以下是一些常用的可视化方法：

1、散点图

散点图用于展示两个变量之间的关系。例如，可以绘制鸢尾花数据集中的两个特征之间的关系：

import matplotlib.pyplot as plt
加载鸢尾花数据集
iris = load_iris()
绘制散点图
plt.scatter(iris.data[:, 0], iris.data[:, 1], c=iris.target, cmap='viridis')
plt.xlabel(iris.feature_names[0])
plt.ylabel(iris.feature_names[1])
plt.title('Scatter Plot of Iris Dataset')
plt.show()

2、箱线图

箱线图用于展示数据的分布情况。例如，可以绘制小费数据集中的账单金额分布：

# 加载小费数据集
tips = sns.load_dataset('tips')
绘制箱线图
sns.boxplot(x='day', y='total_bill', data=tips)
plt.xlabel('Day')
plt.ylabel('Total Bill')
plt.title('Box Plot of Total Bill by Day')
plt.show()

3、直方图

直方图用于展示数据的频率分布。例如，可以绘制鸢尾花数据集中的某个特征的频率分布：

# 加载鸢尾花数据集
iris = load_iris()
绘制直方图
plt.hist(iris.data[:, 0], bins=20, color='blue', edgecolor='black')
plt.xlabel(iris.feature_names[0])
plt.ylabel('Frequency')
plt.title('Histogram of Iris Feature')
plt.show()

4、热力图

热力图用于展示变量之间的相关性。例如，可以绘制小费数据集中的特征相关性热力图：

# 加载小费数据集
tips = sns.load_dataset('tips')
计算相关性矩阵
corr = tips.corr()
绘制热力图
sns.heatmap(corr, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Heatmap of Tips Dataset')
plt.show()

六、总结

通过使用Python自带的数据集，我们可以方便地进行数据分析、机器学习模型训练、数据可视化等操作。本文详细介绍了如何使用scikit-learn、seaborn、statsmodels等库中的数据集，并提供了一些具体的实例。希望这些内容能够帮助您更好地理解和使用这些数据集进行数据分析和机器学习。

在实际应用中，根据具体需求，您可能需要对数据进行更复杂的预处理和建模操作。通过不断学习和实践，您将能够掌握更高级的数据分析和机器学习技术。