Spark----RDD介绍

Faye ·
更新时间:2024-09-20
· 620 次阅读

一、概念

RDD(Resilient Distributed Datasets),弹性分布式数据集。特点是可以并行操作,并且是容错的。有两种方法可以创建RDD:
1.执行Transform操作(变换操作);
2.读取外部存储系统的数据集,如:HDFS、HBase,或者任何与Hadoop相关的数据源。

二、入门实例

案例一:

//scala 语言 val data = Array(1,2,3,4,5) val r1 = data.parallelize(data) val r2 = data.parallelize(data,2)

你可以把RDD想象为一个特殊的集合类,上面的data是一个普通的集合类型,然后通过parallelize函数的转换成为一个RDD;r1是一个普通的RDD,r2多带了一个参数,这代表的是分区操作。表示r2是一个分区的RDD,这么做的目的是:分布式处理。这对于大规模数据是很有意义的。r2在底层可能这样表示:RDD(1,2)(3,4,5)。
案例二:

val data = SparkContext.textFile("data.txt")

这个data就是一个从外部存储系统中导入生成的一个RDD。
SparkContext是spark实例对象。
然后就可以在生成好的RDD上做操作,得到想要的数据。
下一节:RDD操作
如果有错误或者模糊,请多见谅!


作者:憨大牛



rdd spark

需要 登录 后方可回复, 如果你还没有账号请 注册新账号