Spark(Streaming)写入数据到hdfs__saveAsHadoopFile以及自定义MultipleOutputFormat

Gail ·

更新时间:2024-09-21

· 936 次阅读

一、理论依据

1、说明

2、saveAsHadoopFile算子

(1)形式

(2)解析说明

(3)MultipleOutputFormat

二、代码实例

1、SparkSaveAsHadoopFiles

2、自定义RDDMultipleTextOutputFormat

三、打包运行

1、运行

2、结果展示

四、在sparkStreaming中如何使用saveAsHadoopFile

1、代码

2、说明

一、理论依据 1、说明
在spark实际项目应用中，总会牵涉到数据的存储问题。如果选择将spark分析好的数据存储到hdfs上，则必定会用到saveAsHadoopFile方法和自定义MultipleOutputFormat类；
2、saveAsHadoopFile算子 (1)形式 def saveAsHadoopFile( path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: OutputFormat[_, _]], conf: JobConf = new JobConf(self.context.hadoopConfiguration), codec: Option[Class[_ <: CompressionCodec]] = None): Unit (2)解析说明这个算子里需要传入的参数依次是：文件路径、key类型、value类型、outputFormat方式。 saveAsHadoopFile算子属于org.apache.spark.rdd.PairRDDFunctions类，需要接收的参数是PairRDD，所以我们在使用前需要将原来的rdd做一下map操作，变成(key, value) 形式。我们暂且定（K，V）类型为classOf[String]、classOf[String]，再之后传入hdfs保存目录、类型，剩下的就是关键的需要传入OutputFormat。 path(hdfs保存路径可以已存在也可以不存在，事先不存在则会自己随着程序运行时创建) (3)MultipleOutputFormat 自定义MultipleOutputFormat并且重写 override def generateFileNameForKeyValue(key: Any, value: Any, name: String):String方法可以按照自己设计的目录级别和文件名进行数据存储；参数里的name就是原始的 part-00000,part-00001…… 二、代码实例 1、SparkSaveAsHadoopFiles package main.scala.com.cn.spark import com.cn.spark.RDDMultipleTextOutputFormat import org.apache.spark.{SparkConf, SparkContext} object SparkSaveAsHadoopFiles { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("saveAsHadoopFiles").setMaster("local[2]") val sc = new SparkContext(conf) val rdd = sc.parallelize(List("0,00000,Aa,2019-02-11 03:20:06", "1,11111,Bb,2019-03-12 04:25:22", "2,22222,Cc,2019-04-14 05:26:33", "3,33333,Dd,2019-05-15 06:29:44" )) //saveAsHadoopFile需要的是pairRDD，因此，我们使用map将数据转换一下，数据内容作为key，空串“”作为value val rdd1 = rdd.map(s=>(s,"")) rdd1.repartition(2) .saveAsHadoopFile("/hyj/myhadoop/", classOf[String], classOf[String],classOf[RDDMultipleTextOutputFormat]) } } 2、自定义RDDMultipleTextOutputFormat package com.cn.spark import java.text.SimpleDateFormat import java.util.Date import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat class RDDMultipleTextOutputFormat extends MultipleTextOutputFormat[Any,Any]{ private val HOURFORMAT = new SimpleDateFormat("HH-mm-ss") private val start_time = System.currentTimeMillis() private val curDay=new Date(start_time) private val fileName=HOURFORMAT.format(curDay) //name:part-00000,part-00001 override def generateFileNameForKeyValue(key: Any, value: Any, name: String):String ={ //"1,11111,Bb,2019-03-12 04:25:22" val line=key.toString //提取2019-03-12 04:25:22 val time=line.split(",")(3) val date=time.substring(0,time.indexOf(" "))//2019-03-02 val hour=time.substring(time.indexOf(" ")+1,time.indexOf(":"))//04 val resultDir=date+"/"+hour+"/"+fileName+"_"+name.substring(name.length-2) resultDir } } 三、打包运行 1、运行 [root@master bin]# ./spark-submit --master local[*] --class main.scala.com.cn.spark.SparkSaveAsHadoopFiles /home/test/sparkSysLearn_jar/sparkSysLearn.jar 注意：--class 后面的参数，根据SparkSaveAsHadoopFiles类上面的 package main.scala.com.cn.spark定。 2、结果展示四、在sparkStreaming中如何使用saveAsHadoopFile 1、代码 //...部分内容 saveDstream.foreachRDD(rdd => { val start_time = System.currentTimeMillis() if (rdd.isEmpty) { logInfo(" No Data in this batchInterval --------") } else { //这里，因为saveAsHadoopFile需要接受pairRDD，所以用map转换一下 val a: RDD[(String, String)] =rdd.map(x=>(x,"")) a.saveAsHadoopFile(hdfsPath+"/", classOf[String], classOf[String],classOf[RDDMultipleTextOutputFormat]) } })//foreachRDD //... 2、说明在实时流中使用，最终也是将DStream先转化为一个个RDD，再调用saveAsHadoopFile函数存储，思想和上面一样；作者：时不我待，一日千里数据 spark hdfs

1024 个赞编辑举报

需要登录后方可回复, 如果你还没有账号请注册新账号相关文章 SQL FORMAT() 函数 Dara 2020-04-19 625 Redis 有序集合(sorted set) Petra 2020-05-22 602 详解css栅格系统在项目中的灵活运用 Ursula 2020-04-01 908 el-table表格动态合并相同数据单元格(可指定列+自定义合并) Rachel 2023-07-20 1437 vuex页面刷新数据丢失解决方法详解 Psyche 2023-07-20 216 Vue3中是如何实现数据响应式示例详解 Winola 2023-07-20 1347 sessionStorage多Tab标签页数据共享问题分析 Gella 2023-07-20 18 数据结构之带头结点的单链表 Grizelda 2023-07-20 1827 C++各种输出数据类型详解 Janna 2023-07-20 623 Golang基于Vault实现敏感数据加解密 Ophelia 2023-07-21 1848 用Python进行数据清洗以及值处理 Crystal 2023-07-21 283 Python常用的数据清洗方法详解 Laila 2023-07-21 1301 Python multiprocessing.value实现多进程数据共享的示例 Aine 2023-07-21 1131 深入探究python中Pandas库处理缺失数据和数据聚合 Bliss 2023-07-21 191 Python中Pandas库的数据处理与分析 Lillian 2023-07-21 155 pandas删除重复数据简单方法 Tertia 2023-07-21 311 详解C#如何将枚举以下拉数据源的形式返回给前端 Olive 2023-07-21 797 Flutter中跨组件数据传递的方法总结 Angie 2023-07-21 906 python简单几步实现时间日期处理到数据文件的读写 Nora 2023-07-24 926 Python采集二手车数据的超详细讲解 Pandora 2023-07-24 294

我要提问致谢帮助他人，成就自己。人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。 1024问感谢每一位朋友的帮助和支持。软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座