Python 中 drop() 函数的用法及作用详解

Python 中 drop() 函数的用法及作用详解

Python 的 Pandas 库中,有一个名为 drop() 的函数,它可以用来删除 DataFrame 中的指定行或列。Drop() 函数是一个非常实用的函数,它可以帮助我们在数据分析和处理中快速精准地删除无效或重复的数据,使得数据更加规整和清晰。在本文中,我们将详细介绍 Python 中 drop() 函数的用法和作用。

1. drop() 函数的基本用法

drop() 函数是 Pandas 库中的一个方法。它的基本语法为:DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors=’raise’)

其中各参数的含义如下:

– labels:要删除的行或列的标签,可以是单个标签或多个标签。 – axis:指定删除的行(axis=0)或列(axis=1)。 – index:与 axis=0 等效,要删除的行。 – columns:与 axis=1 等效,要删除的列。 – level:在具有分层结构的 DataFrame 中删除指定级别的行或列。 – inplace:确定是否在原始 DataFrame 上进行更改。 – errors:指定要引发的异常,如果不是 ‘raise’,则忽略错误。

例如,我们可以使用以下代码创建一个简单的 DataFrame:

import pandas as pd

data = {‘name’: [‘Alice’, ‘Bob’, ‘Cathy’, ‘David’], ‘age’: [25, 19, 37, 29], ‘gender’: [‘F’, ‘M’, ‘F’, ‘M’]}

df_test = pd.DataFrame(data)

接下来,我们以删除行为例子,演示 drop() 函数的用法:

# 删除指定行 df_test.drop(1, inplace=True)

输出结果如下:

name age gender 0 Alice 25 F 2 Cathy 37 F 3 David 29 M

可以看到,我们使用 drop() 函数删除了第二行(即索引为 1 的那一行)。

2. drop() 函数的常见应用

2.1 删除重复数据

在数据分析中,我们经常会遇到数据中出现重复的情况,这时候就需要使用 drop() 函数来删除重复的数据。在 Pandas 中,我们可以使用 duplicated() 函数来查找重复的数据,然后再利用 drop() 函数删除它们。

下面是一个例子:

import pandas as pd

data = {‘name’: [‘Alice’, ‘Bob’, ‘Cathy’, ‘David’, ‘Bob’], ‘age’: [25, 19, 37, 29, 19], ‘gender’: [‘F’, ‘M’, ‘F’, ‘M’, ‘M’]}

df = pd.DataFrame(data)

# 查找重复数据 duplicate_rows = df[df.duplicated()]

print(“重复数据:”) print(duplicate_rows)

# 删除重复数据 df.drop_duplicates(inplace=True)

print(“n删除重复数据后:”) print(df)

运行结果如下:

重复数据: name age gender 4 Bob 19 M

删除重复数据后: name age gender 0 Alice 25 F 1 Bob 19 M 2 Cathy 37 F 3 David 29 M

可以看到,重复的行(即 Bob、19、M)被删除了。

2.2 删除缺失数据

在处理数据时,我们还常常会遇到数据中有缺失值的情况。此时,我们可以使用 drop() 函数来删除缺失的数据。在 Pandas 中,我们可以使用 isnull() 函数来查找缺失的数据,然后使用 drop() 函数删除它们。

如下是一个例子:

import pandas as pd import numpy as np

data = {‘name’: [‘Alice’, ‘Bob’, ‘Cathy’, ‘David’], ‘age’: [25, np.nan, 37, 29], ‘gender’: [‘F’, ‘M’, ‘F’, ‘M’]}

df = pd.DataFrame(data)

# 查找缺失数据 missing_rows = df[df.isnull().any(axis=1)]

print(“缺失数据:”) print(missing_rows)

# 删除缺失数据 df.dropna(inplace=True)

print(“n删除缺失数据后:”) print(df)

运行结果如下:

缺失数据: name age gender 1 Bob NaN M

删除缺失数据后: name age gender 0 Alice 25.0 F 2 Cathy 37.0 F 3 David 29.0 M

可以看到,有缺失值的那一行(即 Bob、NaN、M)被删除了。

3. 结语

本文详细介绍了 Python 中 drop() 函数的基本用法和常见应用,并提供了相应的代码示例和运行结果。在使用 drop() 函数时,要注意指定要删除的行或列的标签和删除的方向(即行或列),以及确认是否要在原始 DataFrame 上进行更改。使用 drop() 函数可以帮助我们快速精准地删除无效或重复的数据,使得数据更加规整和清晰,从而更方便地进行数据分析和处理。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注