Pandas DataFrame drop_duplicates() 方法

定义和用法

drop_duplicates() 方法用于删除重复行。

如果只在查找重复项时考虑某些指定的列，请使用 subset 参数。

实例

从 DataFrame 中删除重复行：

import pandas as pd

data = {
  "name": ["Sally", "Mary", "John", "Mary"],
  "age": [50, 40, 30, 40],
  "qualified": [True, False, False, False]
}

df = pd.DataFrame(data)

newdf = df.drop_duplicates()

亲自试一试

语法

dataframe.drop_duplicates(subset, keep, inplace, ignore_index)

参数

参数是关键字参数。

参数	值	描述
subset	列标签	可选。字符串或列表，包含查找重复项时要使用的列。如果未指定，则使用所有列。
keep	'first' 'last' False	可选。指定要保留哪个重复项。如果为 False，则删除所有重复项。默认为 'first'。
inplace	True False	可选。默认为 False。如果为 True：在当前 DataFrame 上执行删除操作如果为 False：返回一个已执行删除操作的副本
ignore_index	True False	可选。指定是否要重新标记为 0, 1, 2 等。默认为 False。

返回值

包含结果的 DataFrame，如果 inplace 参数设置为 True，则返回 None。