pyspark指定schema

Bree ·

更新时间:2024-11-13

· 797 次阅读

通过StructType对象指定DataFrame的Schema

没有嵌套结构的json

jsonString = [
"""{ "id" : "01001", "city" : "AGAWAM",  "pop" : 15338, "state" : "MA" }""",
"""{ "id" : "01002", "city" : "CUSHMAN", "pop" : 36963, "state" : "MA" }"""
]
jsonRDD = sc.parallelize(jsonString)
from pyspark.sql.types import *
#定义结构类型
#StructType：schema的整体结构，表示JSON的对象结构
#XXXStype:指的是某一列的数据类型
jsonSchema = StructType() \
  .add("id", StringType(),True) \
  .add("city", StringType()) \
  .add("pop" , LongType()) \
  .add("state",StringType())
jsonSchema = StructType() \
  .add("id", LongType(),True) \
  .add("city", StringType()) \
  .add("pop" , DoubleType()) \
  .add("state",StringType())
reader = spark.read.schema(jsonSchema)
jsonDF = reader.json(jsonRDD)
jsonDF.printSchema()
jsonDF.show()

带有嵌套结构的json

from pyspark.sql.types import *
jsonSchema = StructType([
    StructField("id", StringType(), True),
    StructField("city", StringType(), True),
    StructField("loc" , ArrayType(DoubleType())),
    StructField("pop", LongType(), True),
    StructField("state", StringType(), True)
])
reader = spark.read.schema(jsonSchema)
jsonDF = reader.json('data/nest.json')
jsonDF.printSchema()
jsonDF.show(2)
jsonDF.filter(jsonDF.pop>4000).show(10)

作者：Natal-lzz

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

Font Awesome 货币图标

Edda 2021-07-23

650

golang双链表的实现代码示例

Aurora 2020-09-15

522

详解MySQL中的数据类型和schema优化

Emily 2021-05-02

719

关于MySQL绕过授予information_schema中对象时报ERROR 1044（4200）错误

Keelia 2021-05-27

845

Python通过Schema实现数据验证方式

Jane 2020-12-10

905

pyspark对Mysql数据库进行读写的实现

Jennifer 2020-05-01

995

用 Python 定义 Schema 并生成 Parquet 文件详情

Rosalia 2021-12-16

802

pyspark操作hive分区表及.gz.parquet和part-00000文件压缩问题

Pascall 2021-12-16

1050

MySQL之information_schema数据库详细讲解

Janna 2021-12-16

234

出现错误mysql Table performance_schema...解决办法

Thadea 2021-12-16

930

pycharm利用pyspark远程连接spark集群的实现

Noya 2021-12-16

578

pyspark创建DataFrame的几种方法

Vida 2021-12-16

337

windowns使用PySpark环境配置和基本操作

Novia 2021-12-16

1888

MAC下Anaconda+Pyspark安装配置详细步骤

Laurie 2022-01-14

606

运行独立pyspark时出现Windows错误解决办法

Georgia 2022-01-14

1358

Pyspark线性回归梯度下降交叉验证知识点详解

Canace 2022-01-14

1010

从PySpark中的字符串获取列表方法讲解

Violet 2022-01-14

881

spring.datasource.schema配置详解

Xylona 2022-05-31

365

pyspark自定义UDAF函数调用报错问题解决

Mercia 2022-06-08

143

PySpark与GraphFrames的安装与使用环境搭建过程

Flavia 2022-10-23

645

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座