Spark快速大数据分析——第四章键值对操作——Pair RDD的转化操作

Faye ·

更新时间:2024-11-13

· 539 次阅读

键值对 Pair RDD 转化操作

  val conf = new SparkConf().setMaster("local").setAppName("PairRDD")
  val sc = new SparkContext(conf)
  val lines = sc.parallelize(List((1, 2), (3, 4), (3, 6)))

1、reduceByKey 合并具有相同的键值对 (1, 2), (3, 4), (3, 6)

  // 合并具有相同的键值对
  val reduce = lines.reduceByKey((x, y) => x + y)
  println("1、合并具有相同的键值对")
  reduce.foreach(println)

1、合并具有相同的键值对
(1,2)
(3,10)

2、groupByKey对具有相同键的值进行分组 (1, 2), (3, 4), (3, 6)

  // 对具有相同键的值进行分组
  val groupByKey = lines.groupByKey()
  println("2、对具有相同键的值进行分组")
  groupByKey.foreach(println)

2、对具有相同键的值进行分组
(1,CompactBuffer(2))
(3,CompactBuffer(4, 6))

4、keys 返回一个仅包含键的RDD(不加括号) (1, 2), (3, 4), (3, 6)

  // 对pairRDD中的每个值应用一个函数而不改变键
  val mapValues = lines.mapValues(x => x + 1)
  println("4、pairRDD中的每个值应用一个函数而不改变键")
  mapValues.foreach(println)

(1,3)
(3,5)
(3,7)

5、values 返回一个仅包含值得RDD (1, 2), (3, 4), (3, 6)

 // 返回一个仅包含键的RDD
  val keys = lines.keys
  println("5、返回一个仅包含键的RDD")
  keys.foreach(println)

1
3
3

6、sortByKey 返回一个根据键排序 (1, 2), (3, 4), (3, 6)

  // 返回一个仅包含值得RDD
  val values = lines.values
  println("6、返回一个仅包含值得RDD")
  values.foreach(println)

2
4
6

7、返回一个根据键排序 (1, 2), (3, 4), (3, 6)

  // 返回一个根据键排序
  val sortByKey = lines.sortByKey()
  println("7、返回一个根据键排序")
  lines.foreach(println)

(1,2)
(3,4)
(3,6)

作者：软件手

大数据分析数据 rdd 数据分析 spark 键值大数据

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

CSS 选择器

Liana 2021-05-05

548

Bootstrap 字体图标(Glyphicons)

Lacie 2020-06-30

721

Redis 有序集合(sorted set)

Petra 2020-05-22

602

纯css写一个大太阳的天气图标的方法示例

Yelena 2021-05-20

844

go json转换实践中遇到的坑

Kathy 2021-02-25

919

详解css栅格系统在项目中的灵活运用

Ursula 2020-04-01

908

nginx安装图解_动力节点Java学院整理

Frieda 2020-01-05

946

el-table表格动态合并相同数据单元格(可指定列+自定义合并)

Rachel 2023-07-20

1437

vuex页面刷新数据丢失解决方法详解

Psyche 2023-07-20

216

Vue3中是如何实现数据响应式示例详解

Winola 2023-07-20

1347

sessionStorage多Tab标签页数据共享问题分析

Gella 2023-07-20

数据结构之带头结点的单链表

Grizelda 2023-07-20

1827

C++各种输出数据类型详解

Janna 2023-07-20

623

Golang基于Vault实现敏感数据加解密

Ophelia 2023-07-21

1848

用Python进行数据清洗以及值处理

Crystal 2023-07-21

283

Python常用的数据清洗方法详解

Laila 2023-07-21

1301

Python multiprocessing.value实现多进程数据共享的示例

Aine 2023-07-21

1131

深入探究python中Pandas库处理缺失数据和数据聚合

Bliss 2023-07-21

191

Python中Pandas库的数据处理与分析

Lillian 2023-07-21

155

pandas删除重复数据简单方法

Tertia 2023-07-21

311

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座