pandas和spark dataframe互相转换实例详解

Jacinthe ·

更新时间:2024-09-20

· 596 次阅读

这篇文章主要介绍了pandas和spark dataframe互相转换实例详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下


from pyspark.sql import SparkSession
# 初始化spark会话
spark = SparkSession \
  .builder \
  .getOrCreate()
spark_df = spark.createDataFrame(pandas_df)

spark的dataframe转pandas的dataframe


import pandas as pd
pandas_df = spark_df.toPandas()

由于pandas的方式是单机版的，即toPandas()的方式是单机版的，所以参考breeze_lsw改成分布式版本：


import pandas as pd
def _map_to_pandas(rdds):
  return [pd.DataFrame(list(rdds))]
def topas(df, n_partitions=None):
  if n_partitions is not None: df = df.repartition(n_partitions)
  df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
  df_pand = pd.concat(df_pand)
  df_pand.columns = df.columns
  return df_pand
pandas_df = topas(spark_df)

您可能感兴趣的文章:pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例Pandas实现DataFrame按行求百分数(比例数)如何更改 pandas dataframe 中两列的位置pandas按行按列遍历Dataframe的几种方式pandas中遍历dataframe的每一个元素的实现在pandas中遍历DataFrame行的实现方法Python pandas.DataFrame 找出有空值的行pandas DataFrame的修改方法(值、列、索引)详解pandas DataFrame的查询方法（loc,iloc,at,iat,ix的用法和区别）

dataframe spark pandas

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

ASP Session 对象

Wilma 2020-04-12

617

Redis 有序集合(sorted set)

Petra 2020-05-22

602

PowerShell: Try...Catch...Finally 实现方法

Roxana 2020-10-15

740

Pandas在数据分析和机器学习中的应用及优势

Dulcea 2023-04-30

678

PythonPandas创建Dataframe数据框的六种方法汇总

Tani 2023-05-09

930

python中pandas库的iloc函数用法解析

Ula 2023-05-12

1151

Pandas实现自定义Excel格式并导出多个sheet表

Jacuqeline 2023-05-12

268

Pandas日期处理之生成工作日与节假日

Karli 2023-05-12

1341

spark大数据任务提交参数的优化记录分析

Anna 2023-05-13

776

pandas库中 DataFrame的用法小结

Oria 2023-05-17

1640

spark中使用groupByKey进行分组排序的示例代码

Tricia 2023-05-23

1807

Python中Dataframe数据排序方法(含实例讲解)

Serafina 2023-06-02

624

Spark删除redis千万级别set集合数据实现分析

Tia 2023-07-20

1955

Python+pandas数据分析实践总结

Bertha 2023-07-20

1461

python利用pandas和csv包向一个csv文件写入或追加数据

Heather 2023-07-20

653

关于pandas中的.update()方法解析

Aggie 2023-07-20

578

深入探究python中Pandas库处理缺失数据和数据聚合

Bliss 2023-07-21

191

Python中Pandas库的数据处理与分析

Lillian 2023-07-21

155

pandas删除重复数据简单方法

Tertia 2023-07-21

311

python中DataFrame常用的描述性统计分析方法详解

Hasana 2023-07-21

527

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座