Pandas DataFrame duplicated() 方法
定义和用法
duplicd()
方法返回包含 True 和 False 值的 Series,这些值描述 DataFrame 中哪些行重复,哪些行不重复。
使用 subset
参数指定在查找重复项时要包含哪些列。默认情况下,包含所有列。
默认情况下,两个或多个重复项的第一次出现将被设置为 False。
将 keep
参数设置为 False
,以将第一次出现也设置为 True。
实例
例子 1
检查哪些行重复,哪些行不重复:
import pandas as pd data = { "name": ["John", "Mary", "John", "Sally", "Mary"], "age": [40, 30, 40, 50, 30], "city": ["Bergen", "Oslo", "Stavanger", "Oslo", "Oslo"] } df = pd.DataFrame(data) s = df.duplicated() print(s)
例子 2
仅包含 "name" 和 "age" 列:
s = df.duplicated(subset=["name", "age"]) print(s)
例子 3
将所有重复项的出现都设置为 True:
s = df.duplicated(keep=False) print(s)
语法
dataframe.duplicated(subset, keep)
参数
参数是关键字参数。
参数 | 值 | 描述 |
---|---|---|
subset | 列标签 |
可选。字符串或列表,包含在查找重复项时要包含的列名。 默认 subset=None(意味着未指定子集,并且应包含所有列)。 |
keep |
|
可选。默认为 'first'。指定如何处理重复项:
|
返回值
Series,其中包含 DataFrame 中每一行的布尔值。