构建批流一体数据集成平台的一致性语义保证

Dulcea ·
更新时间:2024-11-10
· 941 次阅读

转自:未知的瞬间

陈肃致力于企业级数据集成平台的研发。曾就职于中国移动研究院(用户行为实验室负责人)、亿瑞互动科技有限公司(技术VP)。对消息中间件、推荐系统等领域都有丰富的实践经验。拥有十项发明专利。

批量和流式是数据集成的两种任务形态。在实际应用中,批量和流式往往需要结合使用:前者处理历史数据,后者处理增量数据。数据同步的一致性语义保证是构建批流一体数据集成平台的基本要求。无论是批流切换,还是数据在流转环节中出现的运行异常,都不能影响数据的最终一致性。Kafka Connect 作为一个被广泛应用的数据集成框架,只提供了数据同步端到端至少一次(at least once)的语义保证。我们在此框架之上,进一步实现了较为通用的精确一次(exactly once)语义保证。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=png


作者:Spark高级玩法



数据集 数据 一致性 数据集成

需要 登录 后方可回复, 如果你还没有账号请 注册新账号