python 如何从数据集选取几个数据

Python从数据集中选取数据的方法包括使用索引、条件筛选、随机抽样、分组抽样、函数应用等。索引、条件筛选、随机抽样、分组抽样，其中随机抽样是最常用的方法之一，它可以确保选取的数据具有代表性。

一、使用索引选取数据

索引是一种常见的数据选取方法，通过指定数据的位置来获取数据。Pandas库在Python中广泛应用于数据处理，其中iloc和loc是两种常用的索引方法。

1、iloc索引

iloc索引是基于位置的索引方法，可以通过行和列的数字索引来选取数据。

import pandas as pd
创建示例数据集
data = {'A': [1, 2, 3, 4, 5], 'B': [5, 4, 3, 2, 1]}
df = pd.DataFrame(data)
使用iloc索引选取前两行数据
selected_data = df.iloc[:2]
print(selected_data)

2、loc索引

loc索引是基于标签的索引方法，可以通过行和列的标签来选取数据。

# 使用loc索引选取前两行数据
selected_data = df.loc[:1]
print(selected_data)

二、条件筛选选取数据

条件筛选是一种根据特定条件选取数据的方法，通过布尔索引实现。

# 筛选出A列大于2的数据
selected_data = df[df['A'] > 2]
print(selected_data)

三、随机抽样选取数据

随机抽样是一种确保选取数据具有代表性的方法，可以使用Pandas中的sample函数。

# 随机抽取2条数据
selected_data = df.sample(n=2)
print(selected_data)

四、分组抽样选取数据

分组抽样是一种根据特定分组条件选取数据的方法，可以使用Pandas中的groupby函数。

# 按照B列分组，并在每个组中随机抽取1条数据
selected_data = df.groupby('B').apply(lambda x: x.sample(1))
print(selected_data)

五、函数应用选取数据

函数应用是一种根据自定义函数选取数据的方法，可以使用Pandas中的apply函数。

# 自定义函数选取A列大于3的数据
def custom_filter(row):
    return row['A'] > 3
selected_data = df[df.apply(custom_filter, axis=1)]
print(selected_data)

六、结合多种方法选取数据

在实际应用中，往往需要结合多种方法选取数据，以满足复杂的数据处理需求。

1、结合条件筛选和随机抽样

# 筛选出A列大于2的数据，并随机抽取1条
filtered_data = df[df['A'] > 2]
selected_data = filtered_data.sample(n=1)
print(selected_data)

2、结合索引和函数应用

# 使用iloc索引选取前两行数据，并应用自定义函数筛选
selected_data = df.iloc[:2].apply(custom_filter, axis=1)
print(selected_data)

七、实际应用示例

以下是一个实际应用示例，展示如何从一个大型数据集中选取数据。

1、创建示例数据集

import numpy as np
创建一个包含10000条数据的大型数据集
data = {'A': np.random.randint(1, 100, 10000), 'B': np.random.randint(1, 100, 10000)}
df = pd.DataFrame(data)

2、使用条件筛选和随机抽样选取数据

# 筛选出A列大于50的数据，并随机抽取10条
filtered_data = df[df['A'] > 50]
selected_data = filtered_data.sample(n=10)
print(selected_data)

八、优化选取方法

在处理大型数据集时，优化选取方法以提高效率非常重要。以下是一些优化技巧：

1、使用矢量化操作

矢量化操作是指使用Pandas内置的函数进行操作，而不是逐行遍历数据。矢量化操作通常比逐行操作更快。

# 使用矢量化操作筛选数据
selected_data = df[df['A'] > 50].sample(n=10)
print(selected_data)

2、减少数据复制

在选取数据时，尽量减少数据的复制操作，以提高效率。

# 直接在筛选后的数据上进行抽样，避免多次复制
selected_data = df[df['A'] > 50].sample(n=10)
print(selected_data)

九、总结

从数据集中选取数据是数据分析和处理的基本操作，Python提供了多种方法来实现这一任务。通过结合使用索引、条件筛选、随机抽样、分组抽样和函数应用等方法，可以灵活高效地选取所需的数据。在实际应用中，优化选取方法以提高效率同样重要。希望本文提供的内容能对大家有所帮助。

标签云

IT项目需求变更技术文档管理文档结构化 ICT项目管理内网办公文档管理企业文档 PM工程项目旅游项目创业项目可视化管理

2026-07-02
1

未分类

2026知名CRM汇总：7款客户管理系统优选

2026-06-30
2

未分类

企业CRM选型必读：7家本土厂商核心能力对照与建议

2026-06-23
3

未分类

新锐产品逆势突围，10款特色CRM核心亮点盘点

2026-06-19
2

未分类

2026年CRM市场：9款头部产品差异化优势与适用边界

2026-06-17
3

未分类

2026年六大技术标杆 CRM 深度解读：选型思路与核心实力对照

2026-06-11
2

未分类

目前较好的 CRM 管理系统有哪些？2026 年9 款CRM平台推荐

2026-06-11
9

未分类

企业甄选 CRM 参考：5 款主流产品多维度测评

2026-06-07
3

未分类

国内外13款CRM 系统对比：企业数字化转型的优选搭档

2026-06-03
2

未分类

2026CRM横评：精选8款主流平台，帮企业快速做选择

2026-05-31
2

未分类