Pandas中的 transform()结合 groupby()用法示例详解

Viridis ·

更新时间:2024-11-10

· 1786 次阅读

首先，假设我们有如下餐厅数据集：


import pandas as pd
df = pd.DataFrame({
  'restaurant_id': [101,102,103,104,105,106,107],
  'address': ['A','B','C','D', 'E', 'F', 'G'],
  'city': ['London','London','London','Oxford','Oxford', 'Durham', 'Durham'],
  'sales': [10,500,48,12,21,22,14]
})

如果我们想知道：每个餐厅在城市中所占的销售额百分比是多少？预期得到的输出是：

相比于原来的数据集，多了两列，分别是某个城市所有餐厅的销售总额，以及每个餐厅在城市中所占的销售额百分比。解决方案有两个：

方案一（较麻烦）：

1、使用 groupby('city') 基于城市进行分组，对于这些组中的每一个组，选中其销售额列 ['sales']，然后使用函数 apply(sum) 或者sum() 对城市的销售额进行求和。

之后，新列被重命名为 city_total_sales 并且索引被重置（注意不能漏了 reset_index() ，因为 groupby('city') 生成的索引是城市，而我们希望城市作为普通列）。


city_sales = df.groupby('city')['sales']
             .sum().rename('city_total_sales').reset_index()

得到的 city_sales 如下：

2、用 merge() 函数把 city_sales 合并回去，得到的 df_new 如下：


df_new = pd.merge(df, city_sales, how='left')

3、最后，求百分比并保留两位小数，结果如下：


df_new['pct'] = df_new['sales'] / df_new['city_total_sales']
df_new['pct'] = df_new['pct'].apply(lambda x: format(x, '.2%'))

方案二（便捷）：

1、
transform() 函数在执行转换后保留与原始数据集相同数量的项目。因此，使用 groupby() 然后使用 transform(sum) 会返回相同的输出，结果如下图：


df['city_total_sales'] = df.groupby('city')['sales']
                           .transform('sum')

代码翻译过来就是：数据集基于城市进行分组，然后选定销售额列，对每组的销售额进行求和，返回一个和原列长度一样的新列。

2、

与方案一相同。


df['pct'] = df['sales'] / df['city_total_sales']
df['pct'] = df['pct'].apply(lambda x: format(x, '.2%'))

总结：可以看出，在对 DataFrame 进行分组 groupby() 之后，如果是使用 apply() 或者直接使用某个统计函数，得到的新列的长度与分组得到的组数是一样的；而如果使用 transform() ，得到的新列与 DataFrame 中列的长度是一样的。

到此这篇关于Pandas中的 transform()结合 groupby()用法示例详解的文章就介绍到这了,更多相关Pandas groupby() 用法内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网！

示例 pandas transform

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

Python3 列表

Phaedra 2021-01-18

870

ASP Session 对象

Wilma 2020-04-12

617

ubuntu修改terminal终端的主机名的实现方法

Kita 2021-05-26

748

c与c++之间的相互调用及函数区别示例详解

Chipo 2023-07-21

513

C#语言async await之迭代器工作原理示例解析

Jacinthe 2023-07-22

549

C#语言async await工作原理示例解析

Winona 2023-07-22

1206

C#实现从PPT中提取文本的示例代码

Ophelia 2023-07-22

1546

C#实现文件压缩与解压功能的示例代码

Agnes 2023-07-22

214

C# 中的智能枚举之如何在枚举中增加行为(示例代码)

Aurora 2023-07-22

1219

基于WPF实现面包屑控件的示例代码

Glory 2023-07-22

780

docker存储目录迁移示例教程

Pelagia 2023-07-22

1183

使用docker compose部署emqx集群的示例

Ianthe 2023-07-22

1083

nginx location指令(匹配顺序匹配冲突)实战示例详解

Nafisa 2023-07-22

1688

Pandas中DataFrame的常用用法分享

Malinda 2023-07-24

382

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

C++ 类模板与成员函数模板示例解析

Nora 2023-07-28

276

nginx限制ip访问频率的实现示例

Rhea 2023-08-08

1403

Docker部署Tomcat的示例代码

Kara 2023-08-08

678

nginx开启ws访问和4层负载的编译参数示例

Oria 2023-08-08

1871

Docker使用数据容器的具体示例

Nissa 2023-08-08

1163

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座