spark: RDD与DataFrame之间的相互转换方法

Iola ·

更新时间:2024-09-21

· 974 次阅读

DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架，但其经过了优化。DataFrames可以从各种各样的源构建，例如：结构化数据文件，Hive中的表，外部数据库或现有RDD。

DataFrame API 可以被Scala，Java，Python和R调用。

在Scala和Java中，DataFrame由Rows的数据集表示。

在Scala API中，DataFrame只是一个类型别名Dataset[Row]。而在Java API中，用户需要Dataset<Row>用来表示DataFrame。

在本文档中，我们经常将Scala/Java数据集Row称为DataFrames。

那么DataFrame和spark核心数据结构RDD之间怎么进行转换呢？

代码如下：


# -*- coding: utf-8 -*-
from __future__ import print_function
from pyspark.sql import SparkSession
from pyspark.sql import Row
if __name__ == "__main__":
 # 初始化SparkSession
 spark = SparkSession \
 .builder \
 .appName("RDD_and_DataFrame") \
 .config("spark.some.config.option", "some-value") \
 .getOrCreate()
 sc = spark.sparkContext
 lines = sc.textFile("employee.txt")
 parts = lines.map(lambda l: l.split(","))
 employee = parts.map(lambda p: Row(name=p[0], salary=int(p[1])))
 #RDD转换成DataFrame
 employee_temp = spark.createDataFrame(employee)
 #显示DataFrame数据
 employee_temp.show()
 #创建视图
 employee_temp.createOrReplaceTempView("employee")
 #过滤数据
 employee_result = spark.sql("SELECT name,salary FROM employee WHERE salary >= 14000 AND salary <= 20000")
 # DataFrame转换成RDD
 result = employee_result.rdd.map(lambda p: "name: " + p.name + " salary: " + str(p.salary)).collect()
 #打印RDD数据
 for n in result:
 print(n)

以上这篇spark: RDD与DataFrame之间的相互转换方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持软件开发网。

您可能感兴趣的文章:浅谈DataFrame和SparkSql取值误区spark dataframe 将一列展开,把该列所有值都变成新列的方法

方法 rdd dataframe spark

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

Redis 有序集合(sorted set)

Petra 2020-05-22

602

PowerShell: Try...Catch...Finally 实现方法

Roxana 2020-10-15

740

go json转换实践中遇到的坑

Kathy 2021-02-25

919

Laravel 中使用简单的方法跟踪用户是否在线(推荐)

Serwa 2020-03-20

874

docker命令中必须加上sudo的问题解决方法

Rhoda 2023-07-22

1038

Elasticsearch/Kibana密码设置方法

Hester 2023-07-22

1081

docker查询日志并输出到文件的方法

Grace 2023-07-22

1029

docker容器/etc/hosts文件修改方法

Vanna 2023-07-22

1279

docker容器连接宿主机redis与mysql的配置方法

Peony 2023-07-22

1975

Docker镜像之不同服务器间迁移方法大全

Dorothy 2023-07-22

1993

docker容器使用内存大小限制方法

Dulcea 2023-07-22

493

在Linux中列出Systemd下所有正在运行的服务的方法指南

Zandra 2023-07-22

507

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

Pandas中DataFrame的常用用法分享

Malinda 2023-07-24

382

VMware克隆虚拟机并重新设置IP和主机名的实现方法

Kathy 2023-08-08

194

使用nginx.exe时闪退的原因和解决方法

Olivia 2023-08-08

694

阿里云服务IIS搭建Web网站外网无法访问的解决方法

Elina 2023-08-08

897

ssh报错nokeyalg的解决方法(关于低版本连接高版本ssh)

Jacinthe 2023-08-08

339

在没有Docker缓存的情况下构建镜像的方法分享

Viridis 2023-08-08

1779

docker-compose中启动镜像失败的几种解决方法

Hana 2023-08-08

725

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座