Pandas自定义shift与DataFrame求差集的小技巧

Adeline ·

更新时间:2024-11-13

· 779 次阅读

Pandas的高级shift偏移

Datafream对象求差集

总结

大家好，我是小小明。今天分享两个小技巧：

Pandas的高级shift偏移

有很多玩量化的朋友经常碰到类似这样的问题：

其中有位量化大佬居然在半年后的今天又问了我一遍怎么实现这样的效果，他居然忘了我之前给他写过实现。为了避免有人再碰到类似的问题，特别写下此文。

我们知道Pandas默认的API是不支持这样的操作的，这个只能自己想办法实现。下面我借助数值索引实现这样的功能，并封装起来。

最终我们封装的方法如下：

import numpy as np
import pandas as pd
def adv_shift(s, n, na_value=pd.NA):
    t = np.arange(s.shape[0])-n
    t[t < 0] = s.shape[0]
    tmp = s.append(pd.Series(na_value))
    return pd.Series(tmp.iloc[t].values, index=s.index)

然后生成测试数据完成这个需求：

df = pd.DataFrame({"a": [200, 300, 500, 800, 600], "b": [1, 1, 1, 2, 1]})
df['c'] = df.a-adv_shift(df.a, df.b, 0)
df

abc

0	200	1	200
1	300	1	100
2	500	1	200
3	800	2	500
4	600	1	-200

可以看到结果完全满足要求。

如果你希望直接给DataFrame对象增加高级偏移adv_shift方法，则可以这样写：

def adv_shift(self, field, n, na_value=pd.NA):
    t = np.arange(self.shape[0])-self[n]
    s = self[field]
    t[t < 0] = s.shape[0]
    tmp = s.append(pd.Series(na_value))
    return pd.Series(tmp.iloc[t].values, index=s.index)
pd.DataFrame.adv_shift = adv_shift

调用方式：

df['c'] = df.a-df.adv_shift("a", "b", 0)
df

abc

0	200	1	200
1	300	1	100
2	500	1	200
3	800	2	500
4	600	1	-200

最终结果与上述一致。

Datafream对象求差集

下面我们再看看如何求解Datafream对象的交集、并集和差集：

import pandas as pd
df1 = pd.DataFrame([[1, 11], [2, 22], [3, 33]],
                   columns=['a', 'b'])
df2 = pd.DataFrame([[0, 0], [1, 11], [2, 22], [4, 44]], columns=['a', 'b'])
display(df1)
display(df2)

交集和并集一般的实现都是使用merge方法。

取交集：

df1.merge(df2)

去并集：

df1.merge(df2, how='outer')

关于取差集，我采用的是去重法。思路是，将df1与df2拼接，然后将重复的都去掉不保留，为了将df2全部去掉，将df2拼接两次，这样所有df2的数据都会产生重新而被删除，df1存在于与df2一致的数据也会被删除。

代码为：

pd.concat([df1, df2, df2]).drop_duplicates(keep=False)

测试结果：

总结

到此这篇关于Pandas自定义shift与DataFrame求差集的文章就介绍到这了,更多相关Pandas shift与DataFrame求差集内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网！

shift 技巧 dataframe pandas

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

ASP Session 对象

Wilma 2020-04-12

617

PowerShell: Try...Catch...Finally 实现方法

Roxana 2020-10-15

740

23种CSS垂直居中技巧

Maha 2021-07-03

568

详解element-ui表格中勾选checkbox，高亮当前行

Hanna 2020-01-15

810

Go语言中常见的坑以及高性能编程技巧分享

Grizelda 2023-07-17

1237

PostgreSQL的应用技巧和示例分享

Aine 2023-07-17

1817

C#自定义Attribute值的获取与优化技巧

Dabria 2023-07-20

373

Python+pandas数据分析实践总结

Bertha 2023-07-20

1461

python利用pandas和csv包向一个csv文件写入或追加数据

Heather 2023-07-20

653

langchainPrompt大语言模型使用技巧详解

Posy 2023-07-20

618

关于pandas中的.update()方法解析

Aggie 2023-07-20

578

深入探究python中Pandas库处理缺失数据和数据聚合

Bliss 2023-07-21

191

Python中Pandas库的数据处理与分析

Lillian 2023-07-21

155

pandas删除重复数据简单方法

Tertia 2023-07-21

311

python中DataFrame常用的描述性统计分析方法详解

Hasana 2023-07-21

527

优雅又实用的C#代码优化技巧分享

Tamara 2023-07-21

常用Android布局文件优化技巧总结

Georgia 2023-07-21

1405

Android开发必备技巧之高效字符串筛选

Natalia 2023-07-21

1350

Android自定义View的一些独家技巧

Bambi 2023-07-21

648

探秘Android手势事件机制与优化技巧

Mora 2023-07-21

720

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座