Pandas DataFrame drop_duplicates() 方法
定义和用法
drop_duplicates()
方法用于删除重复行。
如果只在查找重复项时考虑某些指定的列,请使用 subset
参数。
实例
从 DataFrame 中删除重复行:
import pandas as pd data = { "name": ["Sally", "Mary", "John", "Mary"], "age": [50, 40, 30, 40], "qualified": [True, False, False, False] } df = pd.DataFrame(data) newdf = df.drop_duplicates()
语法
dataframe.drop_duplicates(subset, keep, inplace, ignore_index)
参数
参数是关键字参数。
参数 | 值 | 描述 |
---|---|---|
subset | 列标签 |
可选。字符串或列表,包含查找重复项时要使用的列。 如果未指定,则使用所有列。 |
keep |
|
可选。指定要保留哪个重复项。 如果为 False,则删除所有重复项。 默认为 'first'。 |
inplace |
|
可选。默认为 False。
|
ignore_index |
|
可选。指定是否要重新标记为 0, 1, 2 等。 默认为 False。 |
返回值
包含结果的 DataFrame,如果 inplace
参数设置为 True
,则返回 None。