数据分析工具Polars实现CSV读写、排序、应用函数、lazy API-摩杜云开发者社区

数据分析工具Polars实现CSV读写、排序、应用函数、lazy API

utcwpaXdbjbR 2023年12月07日 22 0

polars 数据类型 CSV polars CSV 数据处理数据类型数据处理

polars使用rust实现，内部使用arrow列存储格式，支持并行数据处理，比pandas快，分两种模式eager和lazy。
适合中、小型数据处理，大型数据建议用Spark。

安装

pip install polars

DataFrame

读取CSV

读取CSV并设置列名。

import polars as pl

# 读取CSV文件，返回DataFrame
df = pl.read_csv('data.csv', new_columns=["index", "id", "url"])

查看前5条

# 提取前5条
print(df.head(5))

排序

# 排序
print(df.sort("url", descending=True).head(5))

查看列、行

# 查看列名
print(df.columns)

# 所有行
print(df.rows())

行列数

# 行列数
print(df.shape)

查看数据类型

# 查看数据类型
print(df.dtypes)

空行数

# 空行数
print(df.null_count())

过滤

# 过滤
print(df.filter(pl.col("index") == 1153))

保存CSV

df.write_csv("1.csv")

LazyFrame

使用Lazy接口可以优化查询，超过内存的数据量、提取发现类型错误。

import polars as pl

# 新建LazyFrame
lf = pl.scan_csv("data.csv", new_columns=["index", "id", "url"])

df = (lf.filter(pl.col("id") != 0)  # 过滤数据
      .map_batches(lambda x: x, streamable=True)  # 应用函数，参数是dataframe类型
      .collect(streaming=True))  # 执行
print(df.head())  # 查看结果

参考

官网 https://github.com/pola-rs/polars

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： Django工程-模型类定义详解（三）下一篇： Excel Unix时间戳和日期时间格式的相互转换

分享：

最后一次编辑于 2023年12月07日 0

暂无评论

推荐阅读

有一个数据对应表，遍历df数据只要df存在对应的数据就替换掉，但是这个一直报错

Nq4HJy6Hftbd 2023年12月12日 17 0 0 正则数据数据数据处理数据处理正则

前端歌谣的刷题之路-第一百一十二题-虚拟dom

Fuy6dnbn2ffz 2023年12月06日 23 0 0 牛客网 html 数据类型 html 数据类型牛客网

数据分析工具Polars实现CSV读写、排序、应用函数、lazy API

utcwpaXdbjbR 2023年12月07日 23 0 0 polars 数据类型 CSV polars CSV 数据处理数据类型数据处理

QMetaType和QVariant使用

yQAl4kecrO8W 2023年12月23日 14 0 0 自定义数据类型自定义数据类型 Qt qt

振弦采集仪在安全监测中的可靠性与精度分析

68xsQ7IZnrgw 2023年12月19日 17 0 0 工程监测工程监测测量仪器解决方案测量仪器岩土工程数据处理解决方案数据处理岩土工程

js基础知识

KRsXEGSB49bk 2023年12月11日 13 0 0 数据结构数据类型引用数据类型引用数据类型数据结构数据类型

jQuery CSV的库文件

7aMqukt4uPQI 2023年12月11日 15 0 0 库文件 jQuery CSV 库文件 jQuery CSV

MySQL中如何使用 SQL 语句更新表结构？

0SnbOly3LC5t 2023年12月10日 39 0 0 SQL SQL 表名表名数据类型 mysql mysql 数据库数据库数据类型

AntDB数据库致力降本增效的某省高速清分结算实践——解决方案

OmM39SHr7olk 2023年12月23日 23 0 0 数据 antdb 数据库 antdb 数据库 antdb数据库数据数据处理数据处理 antdb数据库

utcwpaXdbjbR

作者其他文章更多

查看NVIDIA CUDA版本号的四种方法

2023-12-23

Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.

2023-12-23

PyTorch实现逻辑回归

2023-12-23

抓包工具：Sunny网络中间件

2023-12-22

pandas read_sql报错：AttributeError: ‘OptionEngine‘ object has no attribute ‘execute‘

2023-12-19

Excel Unix时间戳和日期时间格式的相互转换

2023-12-07

数据分析工具Polars实现CSV读写、排序、应用函数、lazy API

2023-12-07

Pandas时间序列、时间戳对象、类型转换、时间序列提取、筛选、重采样、窗口滑动

2023-12-02

Pandas分组函数groupby、聚合函数agg和转换函数transform

2023-12-02

Java用fastjson转换JSON对象和字符串

2023-11-19

最新推荐更多

vue3早已具备抛弃虚拟DOM的能力了

2024-05-08

Vue3 除了 keep-alive，还有哪些页面缓存的实现方案

2024-05-08

十分钟，带你了解 Vue3 的新写法

2024-05-08

如何判断一个js对象是否存在循环引用

2024-05-08

页面嵌套，界面套娃，除了用iframe，还有其他方式吗？

2024-05-08

【动画进阶】巧用 CSS/SVG 实现复杂线条光效动画

2024-05-08

说说你对盒子模型的理解?

2024-05-08

HTML页面关于高分屏的设置

2024-05-04

Vue列表过滤与排序

2024-05-02

Vue3+Ts i18n实现国际化

2024-04-30

一款极简的聊天应用

2024-04-30

你是怎么理解ES6中 Promise的？使用场景？

2024-04-30

微信读书助手迎来史诗级增强

2024-04-30

Radash库使用说明——数组方法篇（全）

2024-04-30

uniapp+vue3聊天室|uni-app+vite4+uv-ui跨端仿微信app聊天语音/朋友圈

2024-04-29

在vue2中，什么是双向绑定，为什么vue3要进行优化？

2024-04-29

为什么vue打印的对象在浏览器中显示...

2024-04-28

浏览器开发者工具DevTools中提升效率的小技巧

2024-04-28

google浏览器插件开发

2024-04-28

厉害了！这个工具帮助你生成朋友圈转发截图

2024-04-28