SparkStreaming整合Kafka过程详解

Pandora ·
更新时间:2024-09-20
· 721 次阅读

目录

Spark Streaming连接kafka 的两种方式

Receiver based Approah

Direct Approach

代码展示

自动提交偏移量

手动提交

Spark Streaming连接kafka 的两种方式 Receiver based Approah

KafkaUtils.createDstream基于接收器方式,消费Kafka数据,已淘汰

Receiver作为Task运行在Executor等待数据,一个Receiver效率低,需要开启多个,再手动合并数据,很麻烦

Receiver挂了,可能丢失数据,需要开启WAL(预写日志)保证数据安全,效率低

通过Zookeeper来连接kafka,offset存储再zookeeper中

spark消费的时候为了保证数据不丢也会保存一份offset,可能出现数据不一致

Direct Approach

KafkaUtils.createDirectStream直连方式,streaming中每个批次的job直接调用Simple Consumer API获取对应Topic数据

Direct方式直接连接kafka分区获取数据,提高了并行能力

Direct方式调用kafka低阶API,offset自己存储和维护,默认由spark维护在checkpoint中

offset也可以自己手动维护,保存在mysql/redis中

// 从kafka加载数据 val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "hadoop102:9092",//kafka集群地址 "key.deserializer" -> classOf[StringDeserializer],//key的反序列化规则 "value.deserializer" -> classOf[StringDeserializer],//value的反序列化规则 "group.id" -> "sparkdemo",//消费者组名称 //earliest:表示如果有offset记录从offset记录开始消费,如果没有从最早的消息开始消费 //latest:表示如果有offset记录从offset记录开始消费,如果没有从最后/最新的消息开始消费 //none:表示如果有offset记录从offset记录开始消费,如果没有就报错 "auto.offset.reset" -> "latest", "auto.commit.interval.ms"->"1000",//自动提交的时间间隔 "enable.auto.commit" -> (true: java.lang.Boolean)//是否自动提交 ) val topics = Array("spark_kafka")//要订阅的主题 //使用工具类从Kafka中消费消息 val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String]( ssc, LocationStrategies.PreferConsistent, //位置策略,使用源码中推荐的 ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消费策略,使用源码中推荐的 ) 代码展示 自动提交偏移量 object kafka_Demo01 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").setAppName("kafka_Demo01") val sc = new SparkContext(conf) val ssc = new StreamingContext(sc, Seconds(5)) ssc.checkpoint("data/ckp") // 从kafka加载数据 val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "hadoop102:9092",//kafka集群地址 "key.deserializer" -> classOf[StringDeserializer],//key的反序列化规则 "value.deserializer" -> classOf[StringDeserializer],//value的反序列化规则 "group.id" -> "sparkdemo",//消费者组名称 //earliest:表示如果有offset记录从offset记录开始消费,如果没有从最早的消息开始消费 //latest:表示如果有offset记录从offset记录开始消费,如果没有从最后/最新的消息开始消费 //none:表示如果有offset记录从offset记录开始消费,如果没有就报错 "auto.offset.reset" -> "latest", "auto.commit.interval.ms"->"1000",//自动提交的时间间隔 "enable.auto.commit" -> (true: java.lang.Boolean)//是否自动提交 ) val topics = Array("spark_kafka")//要订阅的主题 //使用工具类从Kafka中消费消息 val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String]( ssc, LocationStrategies.PreferConsistent, //位置策略,使用源码中推荐的 ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消费策略,使用源码中推荐的 ) // 处理消息 val infoDS = kafkaDS.map(record => { val topic = record.topic() val partition = record.partition() val offset = record.offset() val key = record.key() val value = record.value() val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}""" info }) // 输出 infoDS.print() ssc.start() ssc.awaitTermination() ssc.stop(true, true) } } 手动提交

提交代码

// 处理消息 //注意提交的时机:应该是消费完一小批就该提交一次offset,而在DStream一小批的体现是RDD kafkaDS.foreachRDD(rdd => { rdd.foreach(record => { val topic = record.topic() val partition = record.partition() val offset = record.offset() val key = record.key() val value = record.value() val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}""" info println("消费" + info) }) //获取rdd中offset相关的信息:offsetRanges里面就包含了该批次各个分区的offset信息 val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges //提交 kafkaDS.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges) println("当前批次的数据已消费并手动提交") })

完整代码

object kafka_Demo02 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").setAppName("kafka_Demo01") val sc = new SparkContext(conf) val ssc = new StreamingContext(sc, Seconds(5)) ssc.checkpoint("data/ckp") // 从kafka加载数据 val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "hadoop102:9092",//kafka集群地址 "key.deserializer" -> classOf[StringDeserializer],//key的反序列化规则 "value.deserializer" -> classOf[StringDeserializer],//value的反序列化规则 "group.id" -> "sparkdemo",//消费者组名称 //earliest:表示如果有offset记录从offset记录开始消费,如果没有从最早的消息开始消费 //latest:表示如果有offset记录从offset记录开始消费,如果没有从最后/最新的消息开始消费 //none:表示如果有offset记录从offset记录开始消费,如果没有就报错 "auto.offset.reset" -> "latest", // "auto.commit.interval.ms"->"1000",//自动提交的时间间隔 "enable.auto.commit" -> (false: java.lang.Boolean)//是否自动提交 ) val topics = Array("spark_kafka")//要订阅的主题 //使用工具类从Kafka中消费消息 val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String]( ssc, LocationStrategies.PreferConsistent, //位置策略,使用源码中推荐的 ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消费策略,使用源码中推荐的 ) // 处理消息 //注意提交的时机:应该是消费完一小批就该提交一次offset,而在DStream一小批的体现是RDD kafkaDS.foreachRDD(rdd => { rdd.foreach(record => { val topic = record.topic() val partition = record.partition() val offset = record.offset() val key = record.key() val value = record.value() val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}""" info println("消费" + info) }) //获取rdd中offset相关的信息:offsetRanges里面就包含了该批次各个分区的offset信息 val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges //提交 kafkaDS.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges) println("当前批次的数据已消费并手动提交") }) // 输出 kafkaDS.print() ssc.start() ssc.awaitTermination() ssc.stop(true, true) } }

到此这篇关于SparkStreaming整合Kafka过程详解的文章就介绍到这了,更多相关SparkStreaming整合Kafka内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网!



kafka

需要 登录 后方可回复, 如果你还没有账号请 注册新账号