RDD操作

Oriel ·

更新时间:2024-09-21

· 727 次阅读

概述：针对RDD的操作分为两种，一种是Transform变换操作，一种是Action执行操作。
Transform操作是懒操作（简称：算子），懒操作不会真正的触发RDD的处理计算；
Action操作会触发计算。
一、Transform操作
1.map（fun）: 参数是函数，函数会作用于RDD的每一个元素，并会返回一个RDD

val rdd = sc.makeRDD(List(1,3,5,7,9))
rdd.map(_*10)

结果是 10,30,50,70,90
2.flatmap(fun) : 扁平化map，对RDD每个元素转换, 然后再扁平化处理

val rdd = sc.makeRDD(List("hello world","hello count","world spark"),2)
rdd.map(_.split{" "})//Array(Array(hello, world), Array(hello, count), Array(world, spark))
rdd.flatMap(_.split{" "})//Array[String] = Array(hello, world, hello, count, world, spark)
//Array[String] = Array(hello, world, hello, count, world, spark)

3.filter(fun) : 过滤器操作

val rdd = sc.makeRDD(List(1,3,5,7,9));
rdd.filter(_<5);// 结果:1,3

4.mapPartitions(fun) : 该函数和map函数类似，只不过映射函数的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器。

var rdd1 = sc.makeRDD(1 to 5,2)
val rdd3 = rdd1.mapPartitions{ x => {
val result = List[Int]()
var i = 0
while(x.hasNext){
i += x.next() //累加
}
result.::(i).iterator
}} // 结果: 3 , 12

5.union(otherDataset) : 并集

val rdd1 = sc.makeRDD(List(1,3,5));
val rdd2 = sc.makeRDD(List(2,4,6,8));
val rdd = rdd1.union(rdd2);
val rdd = rdd1 ++ rdd2;

6.intersection(otherDataset) : 交集

val rdd1 = sc.makeRDD(List(1,3,5,7));
val rdd2 = sc.makeRDD(List(5,7,9,11));
val rdd = rdd1.intersection(rdd2);

7.subtract:差集

val rdd1 = sc.makeRDD(List(1,3,5,7,9));
val rdd2 = sc.makeRDD(List(5,7,9,11,13));
val rdd =  rdd1.subtract(rdd2);

8.distinct([numTasks])):去重

val rdd = sc.makeRDD(List(1,3,5,7,9,3,7,10,23,7));
rdd.distinct

9.groupByKey([numTasks]):分组

val rdd = sc.parallelize(List(("cat",2), ("dog",5),("cat",4),("dog",3),("cat",6),("dog",3),("cat",9),("dog",1)),2);
rdd.groupByKey()

10.reduceByKey(func, [numTasks]):reduce操作,根据相同key值对value操作

var rdd = sc.makeRDD( List( ("hello",1),("spark",1),("hello",1),("world",1) ) )
rdd.reduceByKey(_+_);

11.sortByKey([ascending], [numTasks]):排序

val d2 = sc.parallelize(Array(("cc",32),("bb",32),("cc",22),("aa",18),("bb",6),("dd",16),("ee",104),("cc",1),("ff",13),("gg",68),("bb",44)))

在这里插入图片描述
二、Action操作
1.reduce(func) : 并行整合所有RDD数据，例如求和操作；
2.collect():返回RDD所有元素，将rdd分布式存储在集群中不同分区的数据获取到一起组成一个数组返回。注意：这个方法将会把所有数据收集到一个机器内，容易造成内存的溢出在生产环境下千万慎用；
3.count（）：统计RDD里元素个数；
4.first()：返回RDD的第一个元素；
5.take（n）：返回RDD的前n个元素;
6.takeOrdered(n, [ordering]) : 先将RDD中的元素升序排序,在取前n个；
7.Top（n）：先降序排，再取前n个；
8.saveAsTextFile(path)：saveAsTextFile 按照文本方式保存分区数据

val rdd = sc.makeRDD(List(1,2,3,4,5),2);
rdd.saveAsTextFile("/root/work/aaa")

可能不太全，请大家见谅！

作者：憨大牛

rdd

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

go json转换实践中遇到的坑

Kathy 2021-02-25

919

浅谈Spark RDD API中的Map和Reduce

Brenda 2021-02-13

607

spark rdd转dataframe 写入mysql的实例讲解

Nita 2020-10-10

815

将string类型的数据类型转换为spark rdd时报错的解决方法

Tanya 2020-05-14

755

spark: RDD与DataFrame之间的相互转换方法

Iola 2021-03-11

974

Spark RDD是什么？

Abigail 2020-10-25

990

Spark RDD Operations

Emma 2021-02-09

994

Scala基础(11) 运行基本流程及RDD

Valentina 2021-01-15

531

Spark RDD详解

Tricia 2020-12-19

600

Spark快速大数据分析——第四章键值对操作——Pair RDD的行动操作

Serena 2020-04-29

829

Spark快速大数据分析——第四章键值对操作——两个Pair RDD的转化操作

Chloe 2021-07-23

788

Spark快速大数据分析——第四章键值对操作——Pair RDD的转化操作

Faye 2021-03-25

539

第二章 Spark RDD以及编程接口

Oceana 2020-01-01

522

RDD自定义分区方法(按班级把同一个班级的学生放到一个文件中)和自定义排序方法（先按数学成绩排序，数学成绩相同再按语文成绩排序）

Agatha 2020-03-21

718

Spark----RDD介绍

Faye 2021-06-23

620

RDD操作

Oriel 2020-12-04

727

Spark RDD编程

Rowena 2021-01-26

921

Spark RDD (章节二)

Emily 2021-03-24

538

Pyspark获取并处理RDD数据代码实例

Rose 2020-06-25

554

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座