分--分组和切分
  wYiNgHyJ6FE6 2023年11月02日 70 0

分组函数:groupby

需要在分组的时候对相关字段进行计算(常用的计算方法包括 sum、max、min、 mean、std)

 

例:汇总看每个级别流量所对应的总访客数和支付金额

姹 。 bye 量 级 别 , ). 
访 喜 數 支 付 化 
一 緞 
三 级 
二 级 
然 415 
13g 
55146 
07 7 
0343g 
03415 
窨 犖 价 
4 & 11 
257 . 58 
223 . 14 
支 付 金 訕 
734340 釕 
5g004 冫 22 
6 四 g2362

由于没有指定求和的列,所以是对所有数值型字段进行了求和

 

例:只想要各级别流量下的访客数和支付金额,

需要指明参数:

“ 。 by(' 量 缰 别 , )[ , 访 客 , , 支 付 金 ].s “ 0 
一 级 
二 级 
访 客 数 
106415 
4 
55146 
支 付 
7B4346 噁 7 
5 羽 042 . 22 
62g923 , 62

流量级别作为汇总的依据列,默认转化为索引列,

如果我们不希望它变成索引,向 groupby 内传入参数 as_index = False 即可:

df.groupby('HÉh%1J , ,as—index 
= F 就 1 “ ) 〔 , 访 客 。 , , 支 付 金 谓 ].s “ 0 
0 
2 
流 趿 刳 
一 级 
二 
访 数 
1 《 415 
48139 
弱 1 
支 付 金 
7 3 噁 7 
5B0042 . 22 
620022 . 62

 

切分函数:cut  常用于一维数组的分类和打标

pd. cut ( 孙 bins, right , labels) 
1. 第 一 个 磐 罡 我 们 要 传 入 和 切 分 的 一 维 数 组 , 可 以 罡 歹 榱 , 也 可 以 æoataFrarne 的 一 列 
2 . bins 表 示 切 分 的 方 式 , 可 以 自 窜 义 侤 入 列 表 [ a , b , 小 表 示 按 照 a . b , b . c 响 区 间 来 讲 行 切 分 
也 可 以 入 数 值 〈 例 如 5 后 直 接 指 定 分 成 5 组 
3 , right 晌 值 可 以 设 为 True 或 者 Fa , 当 为 True 时 , 表 示 分 组 区 间 罡 包 吉 右 边 , 不 包 含 左 
边 ; 等 于 “ 代 表 区 间 吉 左 不 吉 右 
4 山 卜 贝 歷 打 标 数 , 我 们 把 某 列 数 据 切 分 成 3 组 , 每 一 组 我 们 可 以 它 设 置 一 个 对 
应 的 标 签 , 如 [ 低 , 中 、 窩 ] 。

 

例:对各渠道访客级别进 行评估,按照访客数大小,分成辣鸡(流量 100 以内的)、百级、千级和万级的渠道

Pd. Cut (x = df , bins = [O, 100, ICO), 10000, IOTĂ] ) 
o 
4 
6 
o 
o 
4 
(10000, 
(10000, 
(10000, 
(1000, 
(1000, 
(1000, 
(1000, 
(10000, 
(10000, 
(1000, 
(10000, 
(1000, 
100000] 
100000] 
100000] 
10000] 
10000] 
10000] 
10000] 
100000] 
100000] 
10000] 
100000] 
10000] 
(100, 1000] 
(o, 100] 
(o, 100] 
Nane: dtype: category 
Categoîies (4, interval [int64]) . 
< (100, 
< (1000, 
10000] < (ICO)O, 
100ôooj j

在不设置 right 的情况下,分组区间是默认左开右闭的,而 我们希望的是左闭右开,

即百级流量渠道访客数在 0-99 之间,所以需要将 right 值设置为 False。

 

= pd. cut(x 
ght 
df 
= df[' $-E*' = [O, 100, 1000, 10000, 100000], 
= False, labeis = , ] ) 
0 
2 
3 
4 
5 
6 
2 
2 
3 
44300 
30612 
18389 
4509 
3769 
2424 
2412 
29111 
17165 
8870 
45059 
2133 
31 
0.1178 
0.1385 
0.0250 
0.1073 
0.0573 
0.2207 
00821 
o. ICE 
0.2271 
00078 
o. 1366 
0.1083 
o.oen 
0,0000 
0.0000 
58.79 
86.64 
0.28 
64.12 
92.91 
89.33 
56.04 
87.40 
91.22 
44.52 
90_11 
74.48 
NaN 
NaN 
30688783 
367338.10 
129.58 
3103514 
20068 _ 20 
4779160 
11096.42 
271189.23 
355662.39 
3072_oo 
55456122 
17204.50 
8270." 
NaN 
NaN

 

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
  wYiNgHyJ6FE6   2023年11月02日   72   0   0 pandaspandas
  wYiNgHyJ6FE6   2023年11月02日   49   0   0 pandaspandas
  wYiNgHyJ6FE6   2023年11月02日   51   0   0 pandaspandas
  wYiNgHyJ6FE6   2023年11月02日   97   0   0 pandaspandas
  wYiNgHyJ6FE6   2023年11月02日   70   0   0 pandaspandas
  wYiNgHyJ6FE6   2023年11月02日   83   0   0 pandaspandas
  wYiNgHyJ6FE6   2023年11月12日   44   0   0 pandaspandas
  wYiNgHyJ6FE6   2023年11月02日   67   0   0 pandaspandas
wYiNgHyJ6FE6
作者其他文章 更多

2023-12-23

2023-12-11

2023-12-10

2023-12-09

2023-12-08

2023-11-22

2023-11-20

2023-11-19