通过与 Jira 对比,让您更全面了解 PingCode

  • 首页
  • 需求与产品管理
  • 项目管理
  • 测试与缺陷管理
  • 知识管理
  • 效能度量
        • 更多产品

          客户为中心的产品管理工具

          专业的软件研发项目管理工具

          简单易用的团队知识库管理

          可量化的研发效能度量工具

          测试用例维护与计划执行

          以团队为中心的协作沟通

          研发工作流自动化工具

          账号认证与安全管理工具

          Why PingCode
          为什么选择 PingCode ?

          6000+企业信赖之选,为研发团队降本增效

        • 行业解决方案
          先进制造(即将上线)
        • 解决方案1
        • 解决方案2
  • Jira替代方案

25人以下免费

目录

python 数据框如何创建

python 数据框如何创建

要创建一个Python数据框,可以使用pandas库、从列表、字典或其他数据结构中创建数据框、数据清晰、易于操作。在本文中,我们将详细介绍如何使用pandas库来创建数据框,并从不同的数据结构中创建数据框。

一、Pandas简介

Pandas是Python中最受欢迎的数据处理库之一。它提供了高性能、易于使用的数据结构和数据分析工具,特别适合处理表格数据。Pandas中的DataFrame是一个二维数据结构,类似于Excel表格或SQL表中的数据表。它具有行和列,可以方便地进行数据操作和分析。

要使用Pandas,首先需要安装pandas库。可以使用以下命令进行安装:

pip install pandas

安装完成后,可以通过以下方式导入pandas库:

import pandas as pd

二、从列表创建数据框

可以从列表(list)或嵌套列表(list of lists)中创建数据框。以下是一些示例:

1、从简单列表创建数据框

import pandas as pd

data = [1, 2, 3, 4, 5]

df = pd.DataFrame(data, columns=['Numbers'])

print(df)

在这个示例中,我们创建了一个包含单列的DataFrame,列名为"Numbers"。

2、从嵌套列表创建数据框

import pandas as pd

data = [['Alice', 24], ['Bob', 27], ['Charlie', 22]]

df = pd.DataFrame(data, columns=['Name', 'Age'])

print(df)

在这个示例中,我们创建了一个包含两列("Name"和"Age")的DataFrame。

三、从字典创建数据框

可以从字典(dictionary)中创建数据框。字典的键将用作列名,键对应的值将用作列的值。以下是一些示例:

1、从简单字典创建数据框

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],

'Age': [24, 27, 22]}

df = pd.DataFrame(data)

print(df)

在这个示例中,我们创建了一个包含两列("Name"和"Age")的DataFrame,字典的键用作列名,键对应的值用作列的值。

2、从嵌套字典创建数据框

import pandas as pd

data = {'Name': {0: 'Alice', 1: 'Bob', 2: 'Charlie'},

'Age': {0: 24, 1: 27, 2: 22}}

df = pd.DataFrame(data)

print(df)

在这个示例中,我们创建了一个包含两列("Name"和"Age")的DataFrame,字典的键用作列名,嵌套字典的键作为行索引。

四、从其他数据结构创建数据框

除了列表和字典,还可以从其他数据结构中创建数据框,例如NumPy数组、Series等。

1、从NumPy数组创建数据框

import pandas as pd

import numpy as np

data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

df = pd.DataFrame(data, columns=['A', 'B', 'C'])

print(df)

在这个示例中,我们使用NumPy数组创建了一个包含三列("A", "B", "C")的DataFrame。

2、从Pandas Series创建数据框

import pandas as pd

data = {'col1': pd.Series([1, 2, 3], index=['a', 'b', 'c']),

'col2': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(data)

print(df)

在这个示例中,我们使用Pandas Series创建了一个包含两列("col1"和"col2")的DataFrame。

五、从CSV文件创建数据框

在实际应用中,数据通常存储在文件中,例如CSV文件。可以使用pandas库中的read_csv函数从CSV文件中读取数据并创建数据框。

import pandas as pd

df = pd.read_csv('data.csv')

print(df)

在这个示例中,我们从名为"data.csv"的CSV文件中读取数据并创建了一个DataFrame。

六、从Excel文件创建数据框

类似于CSV文件,可以使用pandas库中的read_excel函数从Excel文件中读取数据并创建数据框。

import pandas as pd

df = pd.read_excel('data.xlsx')

print(df)

在这个示例中,我们从名为"data.xlsx"的Excel文件中读取数据并创建了一个DataFrame。

七、数据框基本操作

创建数据框后,可以进行各种操作,例如选择、筛选、排序等。

1、选择列

可以使用列名选择数据框中的一列或多列。

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],

'Age': [24, 27, 22]}

df = pd.DataFrame(data)

选择单列

print(df['Name'])

选择多列

print(df[['Name', 'Age']])

2、选择行

可以使用行索引选择数据框中的一行或多行。

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],

'Age': [24, 27, 22]}

df = pd.DataFrame(data)

选择单行

print(df.loc[0])

选择多行

print(df.loc[0:1])

3、筛选数据

可以使用布尔索引根据条件筛选数据框中的数据。

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],

'Age': [24, 27, 22]}

df = pd.DataFrame(data)

筛选年龄大于24的数据

print(df[df['Age'] > 24])

4、排序数据

可以使用sort_values函数根据某列对数据框进行排序。

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],

'Age': [24, 27, 22]}

df = pd.DataFrame(data)

按年龄排序

df_sorted = pd.DataFrame.sort_values(by='Age')

print(df_sorted)

八、总结

通过本文的学习,我们了解了如何使用Python中的pandas库创建数据框。我们介绍了从列表、字典、NumPy数组、Pandas Series、CSV文件和Excel文件中创建数据框的方法。同时,我们还介绍了一些数据框的基本操作,例如选择、筛选和排序数据。希望这些内容对你有所帮助!

相关问答FAQs:

如何在Python中创建一个数据框?
在Python中,创建数据框通常使用Pandas库。首先,需要安装Pandas库,可以通过命令pip install pandas进行安装。安装完成后,导入Pandas并使用pd.DataFrame()方法创建数据框。可以传入字典、列表或其他数据结构作为数据源。例如,使用字典创建数据框的代码如下:

import pandas as pd

data = {
    '列1': [1, 2, 3],
    '列2': ['A', 'B', 'C']
}
df = pd.DataFrame(data)

数据框中的数据如何进行初始化?
在创建数据框时,可以使用多种方式初始化数据。常见的方式包括使用字典、列表、NumPy数组或从CSV文件读取数据。字典的键作为列名,值作为每列的数据。例如,如果要创建一个包含随机数的数值数据框,可以使用NumPy生成随机数并将其传入数据框构造函数:

import numpy as np

data = np.random.rand(5, 3)  # 生成5行3列的随机数
df = pd.DataFrame(data, columns=['A', 'B', 'C'])

如何添加新列到已创建的数据框中?
要在已创建的数据框中添加新列,可以直接通过列名为其赋值。新列的长度必须与数据框的行数相同。举个例子,如果需要向之前创建的数据框中添加一个新列,可以这样做:

df['新列'] = [10, 20, 30]

这样便成功添加了一列名为“新列”的数据到数据框中。

相关文章