Pandas DataFrame drop_duplicates() 方法

定义和用法

drop_duplicates() 方法用于删除重复行。

如果只在查找重复项时考虑某些指定的列,请使用 subset 参数。

实例

从 DataFrame 中删除重复行:

import pandas as pd

data = {
  "name": ["Sally", "Mary", "John", "Mary"],
  "age": [50, 40, 30, 40],
  "qualified": [True, False, False, False]
}

df = pd.DataFrame(data)

newdf = df.drop_duplicates()

亲自试一试

语法

dataframe.drop_duplicates(subset, keep, inplace, ignore_index)

参数

参数是关键字参数

参数 描述
subset 列标签

可选。字符串或列表,包含查找重复项时要使用的列。

如果未指定,则使用所有列。

keep
  • 'first'
  • 'last'
  • False

可选。指定要保留哪个重复项。

如果为 False,则删除所有重复项。

默认为 'first'。

inplace
  • True
  • False

可选。默认为 False。

  • 如果为 True:在当前 DataFrame 上执行删除操作
  • 如果为 False:返回一个已执行删除操作的副本
ignore_index
  • True
  • False

可选。指定是否要重新标记为 0, 1, 2 等。

默认为 False。

返回值

包含结果的 DataFrame,如果 inplace 参数设置为 True,则返回 None。