python怎么划分样本集

作者：Elara发布时间：2026-03-25 05:59阅读时长：14 分钟阅读次数：62

常见问答

如何利用Python将数据集分成训练集和测试集？

我有一组数据，想用Python将其划分为训练集和测试集，该怎么操作？

使用scikit-learn库划分训练集和测试集

在Python中，可以通过scikit-learn库的train_test_split函数将数据分为训练集和测试集。需要先导入此函数，然后传入特征数据和标签数据，设定test_size参数来指定测试集比例，最后返回划分后的数据。例如：

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Python中怎么实现样本集的随机抽样？

想用Python随机抽取样本用于训练，但不清楚如何操作，有哪些方法？

利用train_test_split或pandas sample方法实现随机抽样

可以用scikit-learn的train_test_split函数自动完成随机划分，也可以用pandas的sample方法对DataFrame进行随机抽样。例如，假设你有一个DataFrame df，使用df.sample(frac=0.8, random_state=1)可以随机抽取80%的数据作为样本。此外，设置random_state参数有助于结果复现。

怎样确保Python划分的样本集类别分布均衡？

划分训练集和测试集时，希望不同类别在两个集中的比例相似，怎么用Python实现？

使用train_test_split中的stratify参数进行分层抽样

在scikit-learn的train_test_split函数中，传入目标标签数组给stratify参数，可以保证训练集和测试集中类别比例相近。示例如下：

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=42)

这种方法对类别不平衡问题特别有效，有助于模型性能的稳定。

* 文章含AI生成内容

标签：

机器学习数据处理编程实践