Flink笔记(十八)：Flink 之 StateBackend 介绍使用

Hedva ·

更新时间:2024-11-13

· 838 次阅读

1.StateBackEnd

用来保存 State 的存储后端就叫做StateBackend。StateBackend 默认是保存在 JobManager 的内存中，也可以保存在 本地文件系统 或者 HDFS 分布式文件系统中。

当检查点（CheckPoint）机制启动时，状态将在检查点中持久化来应对数据的丢失以及恢复。而1.状态在内部是如何表示的？ 2.状态是如何持久化到检查点中以及3.持久化到哪里都取决于选定的StateBackend。

2.可用的StateBackEnd

Flink为我们提供了如下三种Statebackend实现：

     1. MemoryStateBackend
     2. FsStateBackend
     3. RocksDBStateBackend
在这里插入图片描述
       在没有配置 StateBackend 的情况下，Flink默认使用的是MemoryStateBackend。即：将 CheckPointing 数据保存在 JobManager 的内存中。

3.配置StateBackend

Flink 提供了不同的StateBackend，用于指定 State 状态的存储方式和位置。
默认情况下，我们可以在配置文件 flink-conf.yaml 中确定所有Flink作业的 StateBackend。(打开109、114行注释，自行选择即可。filesystem为 hdfs)

可能的配置项是 jobmanager (MemoryStateBackend)， filesystem (FsStateBackend)，** rocksdb (RocksDBStateBackend**)，或者实现了状态后端工厂 FsStateBackendFactory 的类的完全限定类名，例如：为RocksDBStateBackend设置为org.apache.flink.contrib.streaming.state.RocksDBStateBackendFactory
如下图所示：(配置完成后需重启 Flink)
在这里插入图片描述
但是，在 flink-conf.yaml中配置的默认StateBackend，按我们开发的每一个Flink任务，StateBackend都是可以被覆盖的，如下所示

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStateBackend(...);

4.StateBackend 使用 4.1 写入CheckPointing数据到 hdfs

场景： 读取Socket中的数据，WordCount 求和。

4.1.1 添加 Hadoop 整合包

Flink 与 Hadoop 整合包，请参考：Flink环境搭建，链接有介绍。将 2.7.5 版本 Hadoop 整合包，复制到 Flink 目录下的 lib 文件夹下，然后重启 Flink 集群。
在这里插入图片描述

4.1.2 代码

/**
 * TODO 写入CheckPoint数据到 hdfs
 *
 * @author liuzebiao
 * @Date 2020-2-15 20:13
 */
public class StateBackEndDemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //只有开启了checkpointing,才会有重启策略(多长时间执行一次checkpoint)
        env.enableCheckpointing(5000);
        //默认的重启策略是：固定延迟无限重启
        //设置重启策略
        env.getConfig().setRestartStrategy(RestartStrategies.fixedDelayRestart(3,2));//重启3次，隔2秒一次
        //设置状态数据存储后端(此处设置后,会覆盖 flink-conf.yaml 中的配置)
        //env.setStateBackend(new FsStateBackend("hdfs://master:9000/test"));
        //系统异常退出或人为 Cancel 掉，不删除checkpoint数据
        env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
        //通过Socket实时获取数据
        DataStreamSource lines = env.socketTextStream("192.168.204.210", 8888);
        //将数据转换成 Tuple 元组
        SingleOutputStreamOperator<Tuple2> streamOperator = lines.map(new MapFunction<String, Tuple2>() {
            @Override
            public Tuple2 map(String str) throws Exception {
                return Tuple2.of(str, 1);
            }
        });
        //keyBy()
        KeyedStream<Tuple2, Tuple> keyedStream = streamOperator.keyBy(0);
        //sum()
        SingleOutputStreamOperator<Tuple2> summed = keyedStream.sum(1);
        summed.print();
        env.execute("StateBackEndDemo");
    }
}

4.1.3 将任务上传至集群，启动任务

请参考：Flink 提交任务的两种方式。推荐使用 Web 页面方式上传。
在这里插入图片描述

4.1.4 查看任务执行页面 Checkpoints 信息

我们可以点击目前运行的任务，然后查看 Checkpoints 的信息。此时任务ID：31f48d20d48f0bec256e6b4d24553b8a
在这里插入图片描述

4.1.5 查询 HDFS 记录的 CheckPoint

CheckPoint 记录，配置文件 flink-conf.yaml 中，配置路径为：hdfs://192.168.204.210:9000/StateBackend，因为 1.1.1 代码中未作 StateBackend 路径覆盖，所以 CheckPoint 数据记录在 hdfs://192.168.204.210:9000/StateBackend路径下。
在这里插入图片描述
CheckPoint 中具体保存的信息，如下：

4.2 写入数据到本地系统

同1.1.2 代码，只需修改为本地系统路径即可。其他代码不变。

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStateBackend(new FsStateBackend("file:///D:/study_workspace/flink_demo/flink-java/backend"));

其他细节就不再做过多赘述了。

5.Flink 从 Checkpoint 中恢复数据

请跳转下文查看：Flink笔记(十九)：Flink 从 Checkpoint 中恢复数据

Flink 之 StateBackend 部分，介绍到此为止

文章都是博主用心编写，如果本文对你有所帮助，那就给我点个赞呗 ^ _ ^

End

作者：扛麻袋的少年

flink

1024 个赞

编辑举报

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

SQL DEFAULT 约束

Pythia 2020-02-24

749

Flink笔记(十八)：Flink 之 StateBackend 介绍使用

Hedva 2021-07-03

838

从文件读取数据，保存到ElasticSearch，使用flink框架

Cindy 2020-05-05

838

Flink笔记(十七)：Flink重启策略

Mercia 2020-08-08

655

一文弄懂Flink基础理论

Lacie 2020-07-18

775

Flink 1.10 正式发布！——与Blink集成完成，集成Hive，K8S

Lani 2020-04-20

784

最新消息！Cloudera 全球发行版正式集成 Apache Flink

Gwen 2020-07-21

669

Flink笔记(二十四)：Flink 数据保存 Redis(自定义Redis Sink)

Rohana 2020-08-21

935

Flink调优-分区器策略

Genet 2020-09-22

562

Flink 1.10 Native Kubernetes 原理与实践

Ines 2020-01-15

966

为什么说 Flink + AI 值得期待？

Irma 2020-02-10

654

flink反压现象模拟与分析

Izellah 2020-04-01

655

浅谈Flink容错机制之作业执行和守护进程

Irina 2021-12-16

1023

浅谈实时计算框架Flink集群搭建与运行机制

Nita 2021-12-16

1708

Flink实践Savepoint使用示例详解

Cytheria 2022-07-27

401

Flink 侧流输出源码示例解析

Oria 2022-09-16

307

ApacheHudi结合Flink的亿级数据入湖实践解析

Vera 2022-10-26

1019

详解Flink同步Kafka数据到ClickHouse分布式表

Tertia 2022-12-03

2

基于FLink实现实时安全检测的示例代码

Kita 2023-02-24

1129

MySQL Flink实时流处理的核心技术之窗口机制

Kitty 2023-05-09

345

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。
软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座

Flink笔记(十八)：Flink 之 StateBackend 介绍 使用

致谢

Flink笔记(十八)：Flink 之 StateBackend 介绍使用