查询col1列重复值所在行-摩杜云开发者社区

查询col1列重复值所在行

X5zJxoD00Cah 2023年11月02日 61 0

pandas

df_test = pd.DataFrame({'col1': ['A']*2+['B'], 'col2': range(3)})  # 查询col1列重复值所在行
df_test.col1.duplicated()  # 首次出现不算重复
df_test.query("col1.duplicated()")  # 只能筛选出非首次出现的重复值所在行
# 方法一
df_test.duplicated(subset=['col1'], keep=False)  # keep=False 参数表示保留所有重复值所在的行
df_test[df_test.duplicated(subset=['col1'], keep=False)]
# 方法二
df_test.query('''col1 in @df_test.query("col1.duplicated()").col1''')
# 方法三
ser_bool = (df_test.col1.value_counts() > 1)
ser_bool[ser_bool]
df_test.query('''col1 in @ser_bool[@ser_bool].index''')
# 方法四
df_bool = (df_test.col1.value_counts() > 1).reset_index()
df_test.merge(df_bool, left_on='col1', right_on='index', suffixes=('', '_y')).query("col1_y")[df_test.columns]

pandas.DataFrame.duplicated

Determines which duplicates (if any) to mark.

first : Mark duplicates as True except for the first occurrence.
last : Mark duplicates as True except for the last occurrence.
False : Mark all duplicates as True.

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：深入研究消息队列01 协议和网络设计下一篇： Git常用操作

分享：

最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读

pandas numpy where mask 关系总结

X5zJxoD00Cah 2023年11月02日 31 0 0 pandas

pandas concat 空表无列标题可合并

X5zJxoD00Cah 2023年11月02日 56 0 0 pandas

index_col query 容易错的地方

X5zJxoD00Cah 2023年11月19日 16 0 0 pandas

pandas 日期日期差

X5zJxoD00Cah 2023年11月19日 14 0 0 pandas

Python Pandas pivot_table 透视表计数

X5zJxoD00Cah 2023年11月02日 238 0 0 pandas 透视表缺失值 Python 计数函数

选择列名包含关键词的列

X5zJxoD00Cah 2023年11月02日 26 0 0 pandas

df.loc[my_index]会筛选所有索引=my_index的行

X5zJxoD00Cah 2023年11月02日 23 0 0 pandas

能用drop就不要isin

X5zJxoD00Cah 2023年11月19日 22 0 0 pandas

sum count axis=1 对行统计

X5zJxoD00Cah 2023年11月02日 28 0 0 pandas

pandas 零碎笔记

X5zJxoD00Cah 2023年11月02日 17 0 0 pandas

pandas 两列比较差异逐行比较 compare

X5zJxoD00Cah 2023年11月02日 41 0 0 pandas

pandas将列名变为表格第一行

X5zJxoD00Cah 2023年11月02日 35 0 0 pandas

python pandas 判断是否为空表格

X5zJxoD00Cah 2023年11月02日 23 0 0 空表格 pandas isnull Python isna

pandas 单索引列与多索引列MultiIndex 修改索引列名

X5zJxoD00Cah 2023年11月02日 44 0 0 pandas

pandas 将df转化为list

X5zJxoD00Cah 2023年11月02日 31 0 0 pandas

str.contains()输出True False 或 na

X5zJxoD00Cah 2023年11月02日 23 0 0 pandas

pandas 增加行插入行

X5zJxoD00Cah 2023年11月02日 30 0 0 pandas

查询col1列重复值所在行

X5zJxoD00Cah 2023年11月02日 61 0 0 pandas

concat 要表格不要series

X5zJxoD00Cah 2023年11月12日 25 0 0 pandas

Pandas 移动某列顺序 insert+pop

X5zJxoD00Cah 2023年11月02日 56 0 0 insert pandas pop

X5zJxoD00Cah

作者其他文章更多

通过cmd运行脚本输入变量输出变量

2023-12-12

你的代码中出现的错误`NameError: name '__file__' is not defined`表示Python无法找到`__file__`这个变量。`__file__`是一个特殊的变量，它

2023-12-12

在Python中，你可以使用`pymssql`库来连接到Microsoft SQL Server数据库¹²³⁴⁵。以下是一个示例： ```python import pymssql # 连接参数

2023-12-12

如何为防火墙添加运行执行的例外程序？-

2023-12-12

使用Python开发一个操作系统是一项复杂的任务，因为操作系统通常需

2023-12-12

在CMD中运行Python脚本时，如果出现中文乱码

2023-12-12

python查看库版本

2023-12-12

要安装特定版本的Python库，您可以使用pip命令并指定所需的版本。例如，如果您想安装特定版本的numpy，比如1.21.0，您可以使用以下命令： ```bash pip install nump

2023-12-12

pymssql访问数据库时报错20002

2023-12-12

用pyodbc 代替 pymssql 连接 mssql

2023-12-12

最新推荐更多

Hexo发布管理工具

2024-03-28

GitLab (v16.x) 简述及安装部署

2024-03-13

开源无代码 / 低代码平台 NocoBase 0.20：支持多数据源

2024-03-11

易6画 - 在线海报ppt制作平台

2024-03-02

解读平台工程，DevOps真的死了吗？不，它只是换了个马甲而已，弥补了DevOps空心理论，让DevOps继续发展壮大

2024-02-27

Docker

2024-02-27

mdbook安装使用实录

2024-02-22

【更新公告】AirtestIDE更新至1.2.17版本

2024-02-22

在线图片生成工具：定制化占位图片的利器

2024-02-20

1、Git简介

2024-02-19

发布、部署，傻傻分不清楚？从概念到实际场景，再到工具应用，一篇文章让你彻底搞清楚

2024-02-19

2、Git之Windows版本的安装

2024-02-19

使用Git向Gitee仓库推送项目的完整流程

2024-02-19

测试

2024-01-22

[【stars-one】Android图标生成器 PC工具

2024-01-21

ai文章创作助手，大模型原创助手，已对接rpcms

2024-01-15

如何写好技术文档 - 排版格式和规范(一)

2024-01-12

还在用Jekins？快来试试这款比Jekins简而轻的自动部署软件！

2023-12-29

绿色Windows版gvim

2023-12-29

Golang实现JAVA虚拟机-运行时数据区

2023-12-25