详解Pandas中stack()和unstack()的使用技巧

Olive ·

更新时间:2024-09-20

· 694 次阅读

介绍

1.单层

2.多层次：简单案例

3. 多层次：缺失值

4. 多层次：规定要堆叠的层次

5. 多层次：删除缺失值

6. unstack: 简单案例

7. unstack：更多用法

结论

介绍

Pandas 提供了各种用于重塑 DataFrame 的内置方法。其中，stack() 和 unstack() 是最流行的 2 种重组列和行的方法：

stack()：从列到行堆叠

unstack()：从行到列取消堆叠

stack() 和 unstack() 似乎使用起来相当简单，但你仍然应该知道一些技巧来加快数据分析。

在本文中，我将分享 Pandas 的几个技巧：

单层

多层次：简单案例

多层次：缺失值

多个级别：指定要堆叠的级别

多个级别：删除缺失值

unstack: 简单案例

unstack：更多用法

1.单层

最简单的 stack()可以应用于具有单层列的 DataFrame。它只是将标签从列堆叠到行并输出一个系列。

df_single_level = pd.DataFrame(
    [['Mostly cloudy', 10], ['Sunny', 12]],
    index=['London', 'Oxford'],
    columns=['Weather', 'Wind']
)
df_single_level.stack()

2.多层次：简单案例

通常，我们会在具有多级列的 DataFrame 上使用 stack()。

让我们创建一个 DataFrame。有多种方法可以创建具有多级列的 DataFrame，最简单的方法之一是创建 MultiIndex 对象 MultiIndex.from_tuples() 并将结果传递给 pd.DataFrame() 中的 columns 参数：

multi_col_1 = pd.MultiIndex.from_tuples(
    [('Wind', 'mph'), ('Wind', 'm/s')]
)
df_multi_level_1 = pd.DataFrame(
    [[13, 5.5], [19, 8.5]],
    index=['London', 'Oxford'],
    columns=multi_col_1
)

通过调用 stack()，它将获取列级别(mph, m/s) 并将其堆叠到行轴上。

df_multi_level_1.stack()
# Same as 
df_multi_level_1.stack(level=-1)
df_multi_level_1.stack(-1)

在幕后，它根据参数 level 运行操作。参数 level 默认为 -1 ，它采用最内层并将其从列轴堆叠到行轴上。

3. 多层次：缺失值

在堆叠具有多级列的 DataFrame 时，通常会出现缺失值。让我们创建另一个 DataFrame 示例：

multi_col_2 = pd.MultiIndex.from_tuples(
    [('Wind', 'mph'), ('Temperature', '°C')]
)
df_multi_level_2 = pd.DataFrame(
    [[13, 8], [19, 6]],
    index=['London', 'Oxford'],
    columns=multi_col_2
)
df_multi_level_2.stack()

与前面的示例 multi_col_1 在第一级中具有相同的值“Wind”不同，multi_col_2 具有 2 个不同的值“Wind”和“Temperature”。现在，我们得到了缺失值，因为堆叠的 DataFrame 比原始 DataFrame 有更多的值，并且缺失值用 NaN 填充。

4. 多层次：规定要堆叠的层次

stack() 中的第一个参数是 level，它控制堆叠的级别。让我们创建一个具有 2 个不同级别的 MultiIndex：

multi_col_2 = pd.MultiIndex.from_tuples(
    [('Wind', 'mph'), ('Temperature', '°C')]
)
# Level 0
multi_col_2.get_level_values(0)
# Index(['Wind', 'Temperature'], dtype='object')
# Level 1
multi_col_2.get_level_values(1)
# Index(['mph', '°C'], dtype='object')

我们可以传递一个数字来规定要堆叠的级别。要规定要堆叠的多个级别，我们可以传递一个列表：

df_multi_level_2.stack(0)
df_multi_level_2.stack([0, 1])
df_multi_level_2.stack([1, 0])

5. 多层次：删除缺失值

默认情况下，调用 stack() 时会删除所有值缺失的行，可以通过将 dropna 设置为 False 来控制此行为：

df_multi_level_3 = pd.DataFrame(
    [[None, 10], [11, 7.0]],
    index=['London', 'Oxford'],
    columns=multi_col_2
)
df_multi_level_3.stack()
df_multi_level_3.stack(dropna=False)

6. unstack: 简单案例

同样，Pandas unstack() 也支持参数级别，默认为 -1，它将对最内层索引应用操作。

index = pd.MultiIndex.from_tuples([
  ('Oxford', 'Temperature'), 
  ('Oxford', 'Wind'),
  ('London', 'Temperature'), 
  ('London', 'Wind')
])
s = pd.Series([1,2,3,4], index=index)

通过在具有 MultiIndex 的 Series 上调用 unstack()，它会将最内层的索引取消堆叠到列上。要指定要取消堆叠的级别，我们可以传递级别编号：

s.unstack()
# It's equivalent to
s.unstack(level=-1)
# Unstack a specific level
s.unstack(level=0)

7. unstack：更多用法

通常，我们会在更多级别上使用 unstack()。

让我们看一个具有 3 个级别的示例：

index = pd.MultiIndex.from_tuples([
  ('Oxford', 'Weather', '01-01-2022'), 
  ('Oxford', 'Temperature', '01-01-2022'), 
  ('Oxford', 'Weather', '02-01-2022'),
  ('Oxford', 'Temperature', '02-01-2022'),
  ('London', 'Weather', '01-01-2022'), 
  ('London', 'Temperature', '01-01-2022'),
  ('London', 'Weather', '02-01-2022'),
  ('London', 'Temperature', '02-01-2022'),
])
s = pd.Series(
  ['Sunny', 10, 'Shower', 7, 'Shower', 5, 'Sunny', 8], 
  index=index
)

通过调用 unstack()，它将最里面的索引解栈到列中。

例如，我们可以使用方法链来运行另一个 unstack() 或传递一个列表

# Method chaining
df.unstack().unstack()
df.unstack().unstack().unstack()
# The equivalent
df.unstack([2,1])
df.unstack([2,1,0])

结论

在本文中，我们介绍了 7 个使用 Pandas 的 stack()和 unstack() 重塑 DataFrame 的用例，该方法本身非常易于使用，并且是在数据预处理中操纵数据的最受欢迎的方法之一。

到此这篇关于详解Pandas中stack()和 unstack()的使用技巧的文章就介绍到这了,更多相关Pandas stack() unstack()内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网！

stack 技巧 pandas

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

ASP Session 对象

Wilma 2020-04-12

617

23种CSS垂直居中技巧

Maha 2021-07-03

568

Docker 配置网络使用bridge网络的方法

Ivie 2020-01-05

552

Go语言高效编程的3个技巧总结

Tanisha 2023-07-10

173

WebAssembly增强前端应用技巧详解

Serafina 2023-07-16

199

Go语言中常见的坑以及高性能编程技巧分享

Grizelda 2023-07-17

1237

PostgreSQL的应用技巧和示例分享

Aine 2023-07-17

1817

C#自定义Attribute值的获取与优化技巧

Dabria 2023-07-20

373

Python+pandas数据分析实践总结

Bertha 2023-07-20

1461

python利用pandas和csv包向一个csv文件写入或追加数据

Heather 2023-07-20

653

langchainPrompt大语言模型使用技巧详解

Posy 2023-07-20

618

关于pandas中的.update()方法解析

Aggie 2023-07-20

578

深入探究python中Pandas库处理缺失数据和数据聚合

Bliss 2023-07-21

191

Python中Pandas库的数据处理与分析

Lillian 2023-07-21

155

pandas删除重复数据简单方法

Tertia 2023-07-21

311

优雅又实用的C#代码优化技巧分享

Tamara 2023-07-21

常用Android布局文件优化技巧总结

Georgia 2023-07-21

1405

Android开发必备技巧之高效字符串筛选

Natalia 2023-07-21

1350

Android自定义View的一些独家技巧

Bambi 2023-07-21

648

探秘Android手势事件机制与优化技巧

Mora 2023-07-21

720

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座