# yyds干货盘点 # 对5亿行数据去重，各位有没有啥方法。。。内存直接爆了-摩杜云开发者社区

# yyds干货盘点 # 对5亿行数据去重，各位有没有啥方法。。。内存直接爆了

Nq4HJy6Hftbd 2023年11月15日 29 0

并集 pandas 并集数据去重 Python基础数据 Python基础数据数据去重 pandas

大家好，我是皮皮。

一、前言

前几天在Python最强王者交流群【巭孬🕷】问了一个问题，一起来看看吧。对5亿行数据去重，各位有没有啥方法。。。内存直接爆了。全是这样的数据，5亿行，按行去重。

# yyds干货盘点 # 对5亿行数据去重，各位有没有啥方法。。。内存直接爆了_数据

二、实现过程

这里【隔壁😼山楂】给了一个思路：如下所示：

# yyds干货盘点 # 对5亿行数据去重，各位有没有啥方法。。。内存直接爆了_Pandas_02

后来【郑煜哲·Xiaopang】给了个思路，全tuple后，set。后来粉丝用merge逐一并集解决了这个问题。

# yyds干货盘点 # 对5亿行数据去重，各位有没有啥方法。。。内存直接爆了_数据去重_03

原来是用concat全部连接起来，再drop_duplicates，直接爆了。

刚才的是去重，算是解决了。现在又有个新问题，下一篇文章我们一起来看看吧。

三、总结

大家好，我是皮皮。这篇文章主要盘点了一个大数据去重的问题，文中针对该问题，给出了具体的解析和代码实现，帮助粉丝顺利解决了问题。

最后感谢粉丝【巭孬🕷】提问，感谢【隔壁😼山楂】、【郑煜哲·Xiaopang】给出的思路和代码解析，感谢【莫生气】等人参与学习交流。

【提问补充】温馨提示，大家在群里提问的时候。可以注意下面几点：如果涉及到大文件数据，可以数据脱敏后，发点demo数据来（小文件的意思），然后贴点代码（可以复制的那种），记得发报错截图（截全）。代码不多的话，直接发代码文字即可，代码超过50行这样的话，发个.py文件就行。

# yyds干货盘点 # 对5亿行数据去重，各位有没有啥方法。。。内存直接爆了_并集_04

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：来世再不选Java！下一篇：设计模式-策略模式

分享：

最后一次编辑于 2023年11月15日 0

暂无评论

推荐阅读

Google PWA永久包领先者 | 【永不掉包】安卓应用代上架方案

google pwa 2024年04月23日 96 0 0 数据数据数据数据

静态代理IP是否支持HTTP和HTTPS？

Smartproxy 2024年05月06日 82 0 0 linux 数据 python 数据 Java linux 数据 python 数据

关于ISP解答

Smartproxy 2024年04月19日 59 0 0 linux 数据 java 数据 Java MySQL资讯 linux 数据数据

谷歌新增APP上架渠道: Google PWA，附带ROI增强功能，优于Google Play和APK方式，进入Google PWA是王道！

google pwa 2024年04月19日 104 0 0 数据数据数据数据

安卓上架永久包解决方案| 免审核，免抽佣，极速上架，google wpa让你一次搞定应用上架

google pwa 2024年04月16日 103 0 1 数据数据数据数据

新客户免费上架安卓pwa app永久包，google pwa让您的Android飞速上架！

google pwa 2024年04月15日 188 0 4 数据数据数据数据

海外APP上架不再难，新客户免费上架Google PWA APP永久包

google pwa 2024年04月22日 83 0 0 数据数据数据数据

高性价比的海外IP代理,-Smart Proxy

Smartproxy 2024年04月15日 231 0 2 linux 数据 python java 数据 Java linux 数据 python 数据

选择使用海外IP还是国外IP代理？海外动态住宅代理的使用规则

Smartproxy 2024年04月29日 62 0 0 linux 数据 python java 数据 Java linux 数据 python 数据

使用代理http时出现503服务不可用的原因是什么？

Smartproxy 2024年04月26日 78 0 0 linux 数据 java 数据 MySQL资讯 redis linux 数据数据

代理http中的代理池对于爬虫业务有多重要？

Smartproxy 28天前 82 0 0 数据 python java 数据 Java redis 数据 python 数据

代理IP速度变慢的原因是什么，要如何解决？

Smartproxy 2024年05月09日 123 0 0 linux 数据数据 linux 数据数据

Google PWA APP永久包，免审核，0佣金，谷歌app上架包成功！

google pwa 2024年04月17日 104 0 1 数据数据数据数据

建立HTTP代理IP池的技术和工具支持

Smartproxy 2024年05月09日 222 0 0 数据 java 数据 Java 数据数据

Google WPA APP上架永久包，极速pwa安装，免审核，0佣金，无下架风险！

google pwa 2024年04月18日 225 0 0 数据数据数据数据

选择使用海外IP还是国外IP代理？海外动态住宅代理的使用规则

Smartproxy 2024年04月17日 90 0 0 数据 java 数据数据数据

短效http代理ip和动态http代理有什么联系？

Smartproxy 2024年05月10日 118 0 0 linux 数据 python 数据 Java linux 数据 python 数据

选择使用海外IP还是国外IP代理？海外动态住宅代理的使用规则

Smartproxy 2024年04月18日 88 0 0 linux 数据 python 数据 Java linux 数据 python 数据

Socks5代理IP：保障跨境电商的网络安全

Smartproxy 2024年05月10日 123 0 0 数据 python java 数据 Java 信息系统数据 python 数据

多号管理为什么要用http代理中的独享IP代理服务？

Smartproxy 2024年04月29日 82 0 0 数据 python java 数据 Java 数据 python 数据

Nq4HJy6Hftbd

作者其他文章更多

# yyds干货盘点 # 盘点一个基金数据的Python网络爬虫案例

2023-12-27

# yyds干货盘点 # 这个标题乱码不能显示怎么解决呀？

2023-12-23

# yyds干货盘点 # 运行js文件，会弹出一个python解释器的界面，怎么解决呢？

2023-12-22

# yyds干货盘点 # Pandas处理后导出文件【账号】一列变成了数学计数法请问如何处理呢

2023-12-22

# yyds干货盘点 # 如果我生成了exe，那我还需要安装py环境吗？需不需要留一个chromedrive啊？

2023-12-15

想在同一张图片上添加不同的文字，也就是一张图片上出现一个词

2023-12-12

盘点一个Pandas处理Excel表格实战问题（上篇）

2023-12-12

有一个数据对应表，遍历df数据只要df存在对应的数据就替换掉，但是这个一直报错

2023-12-12

# yyds干货盘点 #盘点一个Python自动化办公的实战问题

2023-12-12

# yyds干货盘点 # 怎么把12个不同的df数据全部放到同一个表同一个sheet中且数据间隔2行空格？（下篇）

2023-12-12

最新推荐更多

Spring Boot —— 集成 MyBatis-Plus

2024-05-20

keycloak~作为第三方登录的对接标准

2024-05-20

【日记】母亲生日，我在跟数字人民币 Battle（612 字）

2024-05-18

FFmpeg开发笔记（二十一）Windows环境给FFmpeg集成AVS3解码器

2024-05-18

Qt学习第二篇（基本小组件的使用）

2024-05-18

全网首一份！你最需要的PPTP MS-CHAP V2 挑战响应编程模拟计算教程！代码基于RFC2759，附全部源码！

2024-05-18

Python 潮流周刊#51：用 Python 绘制美观的图表

2024-05-18

Django测试与持续集成：从入门到精通

2024-05-18

自研WPF插件系统(沙箱运行及热插拔)

2024-05-18

记一次asp.net 8 服务器爆满的解决过程

2024-05-18

非常全能WinForm 开发框架 - ReaLTaiizor

2024-05-18

C#反射

2024-05-18

net core jwt的基本原理和实现

2024-05-18

VUE3/JAVA 操作系统开发日志[day 1]

2024-05-18

Nginx R31 doc 官方文档-01-nginx 如何安装

2024-05-18

2024 年 5 月 8 日周三晴热（471 字）

2024-05-17

2024 年 5 月 9 日周四阴常（137 字）

2024-05-17

2024 年 5 月 10 日周五阴凉（1025 字）

2024-05-17

lua~基本语法

2024-05-17

2024 年 5 月 12 日母亲节周日晴常（197 字）

2024-05-17