Spark----RDD介绍

Faye ·

更新时间:2024-09-20

· 620 次阅读

一、概念

RDD（Resilient Distributed Datasets），弹性分布式数据集。特点是可以并行操作，并且是容错的。有两种方法可以创建RDD：
1.执行Transform操作（变换操作）；
2.读取外部存储系统的数据集，如：HDFS、HBase，或者任何与Hadoop相关的数据源。

二、入门实例

案例一：

//scala 语言
val data = Array（1，2，3，4，5）
val r1 = data.parallelize(data)
val r2 = data.parallelize(data,2)

你可以把RDD想象为一个特殊的集合类，上面的data是一个普通的集合类型，然后通过parallelize函数的转换成为一个RDD；r1是一个普通的RDD，r2多带了一个参数，这代表的是分区操作。表示r2是一个分区的RDD，这么做的目的是：分布式处理。这对于大规模数据是很有意义的。r2在底层可能这样表示：RDD（1，2）（3，4，5）。
案例二：

val data = SparkContext.textFile("data.txt")

这个data就是一个从外部存储系统中导入生成的一个RDD。
SparkContext是spark实例对象。
然后就可以在生成好的RDD上做操作，得到想要的数据。
下一节：RDD操作
如果有错误或者模糊，请多见谅！

作者：憨大牛

rdd spark

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

Redis 有序集合(sorted set)

Petra 2020-05-22

602

go json转换实践中遇到的坑

Kathy 2021-02-25

919

Pyspark获取并处理RDD数据代码实例

Rose 2020-06-25

554

pandas和spark dataframe互相转换实例详解

Jacinthe 2020-08-09

596

Spark处理数据排序问题如何避免OOM

Lecea 2020-09-01

795

解析spark源码yarn-cluster模式任务提交

Xanthe 2021-12-16

210

Spark SQL 2.4.8 操作 Dataframe的两种方式

Ipo 2021-12-16

1832

Spark SQL的整体实现逻辑解析

Dreama 2021-12-16

Python安装spark的详细过程

Liana 2021-12-16

windows下pycharm搭建spark环境并成功运行附源码

Damara 2021-12-16

647

Spark简介以及与Hadoop对比分析

Neysa 2021-12-16

801

Docker-Compose搭建Spark集群的实现方法

Elina 2022-05-29

1952

Spark临时表tempView的注册/使用/注销/注意事项(推荐)

Bambi 2022-10-19

707

教你如何让spark sql写mysql的时候支持update操作

Janna 2022-10-23

880

Spark GraphX 分布式图处理框架图算法详解

Roselani 2022-10-24

253

Spark中的数据读取保存和累加器实例详解

Riva 2022-11-05

1525

Spark处理trick总结分析

Malina 2022-12-13

235

Spark 集群执行任务失败的故障处理方法

Damara 2023-02-24

615

Spark SQL小文件问题处理

Elina 2023-04-08

1100

spark大数据任务提交参数的优化记录分析

Anna 2023-05-13

776

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座