当前位置:主页 > 资料 >

如何设计实时数据平台
栏目分类:资料   发布日期:2018-08-02   浏览次数:

导读:本文为去找网小编(www.7zhao.net)为您推荐的如何设计实时数据平台,希望对您有所帮助,谢谢! 点击☝ 蓝字 关注我们 敏捷之歌 我抽数故我存在 |DBus人人玩转流处理 |Wormhole就当吾是数据

本文为去找网小编(www.7zhao.net)为您推荐的如何设计实时数据平台,希望对您有所帮助,谢谢!

去找(www.7zhao.net欢迎您



点击☝ 蓝字 关注我们

内容来自www.7zhao.net

内容来自www.7zhao.net

敏捷之歌

本文来自去找www.7zhao.net

我抽数故我存在 | DBus
人人玩转流处理 | Wormhole
就当吾是数据库 | Moonbox
颜值最后十公里 | Davinci
 本文来自去找www.7zhao.net 
导读:实时数据平台(RTDP,Real-time Data Platform)是一个重要且常见的大数据基础设施平台。在上篇(设计篇)中,我们从现代数仓架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架构。本文作为下篇(技术篇),则是从技术角度入手,介绍RTDP的技术选型和相关组件,探讨适用不同应用场景的相关模式。RTDP的敏捷之路就此展开~
回顾上篇(设计篇)请戳这里:
如何设计实时数据平台(上篇)
 
内容来自www.7zhao.net

下篇-技术篇 本文来自去找www.7zhao.net

欢迎访问www.7zhao.net

技术选型介绍

本文来自去找www.7zhao.net

在设计篇中,我们给出了RTDP的一个整体架构设计(图1)。在技术篇里,我们则会推荐整体技术组件选型;对每个技术组件做出简单介绍,尤其对我们抽象并实现的四个技术平台(统一数据采集平台、统一流式处理平台、统一计算服务平台、统一数据可视化平台)着重介绍设计思路;对Pipeline端到端切面话题进行探讨,包括功能整合、数据管理、数据安全等。

www.7zhao.net

本文来自去找www.7zhao.net

图1 copyright www.7zhao.net

1

去找(www.7zhao.net欢迎您

整体技术选型

copyright www.7zhao.net

欢迎访问www.7zhao.net

图2 copyright www.7zhao.net

首先,我们简要解读一下图2:

内容来自www.7zhao.net

  • 数据源、客户端,列举了大多数数据应用项目的常用数据源类型。

    www.7zhao.net

  • 数据总线平台DBus,作为统一数据采集平台,负责对接各种数据源。DBus将数据以增量或全量方式抽取出来,并进行一些常规数据处理,最后将处理后的消息发布在Kafka上。 copyright www.7zhao.net

  • 分布式消息系统Kafka,以分布式、高可用、高吞吐、可发布-订阅等能力,连接消息的生产者和消费者。 欢迎访问www.7zhao.net

  • 流式处理平台Wormhole,作为统一流式处理平台,负责流上处理和对接各种数据目标存储。Wormhole从Kafka消费消息,支持流上配置SQL方式实现流上数据处理逻辑,并支持配置化方式将数据以最终一致性(幂等)效果落入不同数据目标存储(Sink)中。 欢迎访问www.7zhao.net

  • 在数据计算存储层,RTDP架构选择开放技术组件选型,用户可以根据实际数据特性、计算模式、访问模式、数据量等信息选择合适的存储,解决具体数据项目问题。RTDP还支持同时选择多个不同数据存储,从而更灵活的支持不同项目需求。

    copyright www.7zhao.net

  • 计算服务平台Moonbox,作为统一计算服务平台,对异构数据存储端负责整合、计算下推优化、异构数据存储混算等(数据虚拟化技术),对数据展示和交互端负责收口统一元数据查询、统一数据计算和下发、统一数据查询语言(SQL)、统一数据服务接口等。

    欢迎访问www.7zhao.net

  • 可视应用平台Davinci,作为统一数据可视化平台,以配置化方式支持各种数据可视化和交互需求,并可以整合其他数据应用以提供数据可视化部分需求解决方案,另外还支持不同数据从业人员在平台上协作完成各项日常数据应用。其他数据终端消费系统如数据开发平台Zeppelin、数据算法平台Jupyter等在本文不做介绍。 欢迎访问www.7zhao.net

  • 切面话题如数据管理、数据安全、开发运维、驱动引擎,可以通过对接DBus、Wormhole、Moonbox、Davinci的服务接口进行整合和二次开发,以支持端到端管控和治理需求。

    欢迎访问www.7zhao.net

下面我们会进一步细化上图涉及到的技术组件和切面话题,介绍技术组件的功能特性,着重讲解我们自研技术组件的设计思想,并对切面话题展开讨论。

本文来自去找www.7zhao.net

2 copyright www.7zhao.net

技术组件介绍 www.7zhao.net

(1) 数据总线平台DBus copyright www.7zhao.net

去找(www.7zhao.net欢迎您

图3 RTDP架构之DBus

欢迎访问www.7zhao.net

DBus设计思想 欢迎访问www.7zhao.net

  • 从外部角度看待设计思想

    copyright www.7zhao.net

    ✔ 负责对接不同的数据源,实时抽取出增量数据,对于数据库会采用操作日志抽取方式,对于日志类型支持与多种Agent对接。 去找(www.7zhao.net欢迎您

    ✔ 将所有消息以统一的UMS消息格式发布在Kafka上, UMS是一种标准化的自带元数据信息的JSON格式 ,通过统一UMS实现逻辑消息与物理Kafka Topic解耦,使得同一Topic可以流转多个UMS消息表。

    copyright www.7zhao.net

    ✔ 支持数据库的全量数据拉取,并且和增量数据统一融合成UMS消息,对下游消费透明无感知。

    www.7zhao.net

  • 从内部角度看待设计思想 本文来自去找www.7zhao.net

    ✔ 基于Storm计算引擎进行数据格式化,确保消息端到端延迟最低。 www.7zhao.net

    ✔ 对不同数据源数据进行标准化格式化,生成UMS信息,其中包括:

    copyright www.7zhao.net

    * 生成每条消息的唯一单调递增id,对应系统字段ums_id_

    copyright www.7zhao.net

    * 确认每条消息的事件时间戳(event timestamp),对应系统字段ums_ts_

    www.7zhao.net

    * 确认每条消息的操作模式(增删改,或insert only),对应系统字段ums_op_

    本文来自去找www.7zhao.net

    ✔ 对数据库表结构变更实时感知并采用版本号进行管理,确保下游消费时明确上游元数据变化。 去找(www.7zhao.net欢迎您

    ✔ 在投放Kafka时确保消息强有序(非绝对有序)和at least once语义。 www.7zhao.net

    ✔ 通过心跳表机制确保消息端到端探活感知。

    copyright www.7zhao.net

DBus功能特性 欢迎访问www.7zhao.net

  • 支持配置化全量数据拉取 去找(www.7zhao.net欢迎您

  • 支持配置化增量数据拉取

    内容来自www.7zhao.net

  • 支持配置化在线格式化日志 本文来自去找www.7zhao.net

  • 支持可视化监控预警

    内容来自www.7zhao.net

  • 支持配置化多租户安全管控 内容来自www.7zhao.net

  • 支持分表数据汇集成单逻辑表 本文来自去找www.7zhao.net

DBus技术架构

copyright www.7zhao.net

本文来自去找www.7zhao.net

图4 DBus数据流转架构图

欢迎访问www.7zhao.net

更多DBus技术细节和用户界面,可以参看:

欢迎访问www.7zhao.net

内容来自www.7zhao.net

去找(www.7zhao.net欢迎您

GitHub用户手册: 去找(www.7zhao.net欢迎您

https://bridata.github.io/DBus/

欢迎访问www.7zhao.net

(2) 分布式消息系统Kafka 欢迎访问www.7zhao.net

Kafka已经成为事实标准的大数据流式处理分布式消息系统,当然Kafka在不断的扩展和完善,现在也具备了一定的存储能力和流式处理能力。关于Kafka本身的功能和技术已经有很多文章信息可以查阅,本文不再详述Kafka的自身能力。

欢迎访问www.7zhao.net

这里我们具体探讨Kafka上消息元数据管理(Metadata Management)和模式演变(Schema Evolution)的话题。

www.7zhao.net

欢迎访问www.7zhao.net

图5 

www.7zhao.net

图片来源: http://cloudurable.com/images/kafka-ecosystem-rest-proxy-schema-registry.png 本文来自去找www.7zhao.net

图5显示,在Kafka背后的Confluent公司解决方案中,引入了一个元数据管理组件:Schema Registry。这个组件主要负责管理在Kafka上流转消息的 元数据信息和Topic信息,并提供一系列元数据管理服务。之所以要引入这样一个组件,是为了Kafka的消费方能够了解不同Topic上流转的是哪些数据,以及数据的元数据信息,并进行有效的解析消费。任何数据流转链路,不管是在什么系统上流转,都会存在这段数据链路的元数据管理问题,Kafka也不例外。Schema Registry是一种中心化的Kafka数据链路元数据管理解决方案,并且基于Schema Registry,Confluent提供了相应的Kafka数据安全机制和模式演变机制。更多关于Schema Registry的介绍,可以参看:

copyright www.7zhao.net

Kafka Tutorial:Kafka, Avro Serialization and the Schema Registry 欢迎访问www.7zhao.net

http://cloudurable.com/blog/kafka-avro-schema-registry/index.html

去找(www.7zhao.net欢迎您

那么在RTDP架构中,如何解决Kafka消息元数据管理和模式演变问题呢? 去找(www.7zhao.net欢迎您

  • 元数据管理(Metadata Management)

    www.7zhao.net

    ✔  DBus会自动将实时感知的数据库元数据变化记录下来并提供服务

    本文来自去找www.7zhao.net

    ✔  DBus会自动将在线格式化的日志元数据信息记录下来并提供服务 内容来自www.7zhao.net

    ✔  DBus会发布在Kafka上发布统一UMS消息,UMS本身自带消息元数据信息,因此下游消费时无需调用中心化元数据服务,可以直接从UMS消息里拿到数据的元数据信息 欢迎访问www.7zhao.net

  • 模式演变(Schema Evolution)

    去找(www.7zhao.net欢迎您

    ✔  UMS消息会自带Schema的Namespace信息,Namespace是一个7层定位字符串,可以唯一定位任何表的任何生命周期,相当于数据表的IP地址,形式如下: www.7zhao.net

    [Datastore].[Datastore Instance].[Database].[Table].[TableVersion].[Database Partition].[Table Partition] 内容来自www.7zhao.net

    例: 欢迎访问www.7zhao.net

    oracle.oracle01.db1.table1.v2.dbpar01.tablepar01 内容来自www.7zhao.net

    其中[Table Version]代表了这张表的某个Schema的版本号,如果数据源是数据库,那么这个版本号是由DBus自动维护的。 欢迎访问www.7zhao.net

    ✔  在RTDP架构中,Kafka的下游是由Wormhole消费的,Wormhole在消费UMS时,会将[TableVersion]作为*处理,意味着当某表上游Schema变更时,Version会自动升号,但Wormhole会无视这个Version变化,将会消费此表所有版本的增量/全量数据,那么Wormhole如何做到兼容性模式演变支持呢?在Wormhole里可以配置流上处理SQL和输出字段,当上游Schema变更是一种“兼容性变更”(指增加字段,或者修改扩大字段类型等)时,是不会影响到Wormhole SQL正确执行的。当上游发生非兼容性变更时,Wormhole会报错,这时就需要人工介入对新Schema的逻辑进行修复。 www.7zhao.net

由上文可以看出,Schema Registry和DBus+UMS是两种不同的解决元数据管理和模式演变的设计思路,两者各有优势和劣势,可以参考表1的简单比较。

内容来自www.7zhao.net

www.7zhao.net

表1 Schema Registry 与 DBus+UMS 对比 

去找(www.7zhao.net欢迎您

这里给出一个UMS的例子: 欢迎访问www.7zhao.net

www.7zhao.net

图6 UMS消息举例 内容来自www.7zhao.net

(3) 流式处理平台Wormhole 欢迎访问www.7zhao.net

欢迎访问www.7zhao.net

图7 RTDP架构之Wormhole

www.7zhao.net

Wormhole设计思想 欢迎访问www.7zhao.net

  • 从外部角度看待设计思想

    本文来自去找www.7zhao.net

    ✔  消费来自Kafka 的UMS消息和自定义JSON消息

    copyright www.7zhao.net

    ✔  负责对接不同的数据目标存储 ( Sink ),并通过幂等逻辑实现Sink的最终一致性

    本文来自去找www.7zhao.net

    ✔  支持配置SQL方式实现流上处理逻辑 内容来自www.7zhao.net

    ✔  提供Flow抽象。Flow由 一个Source Namespace和一个Sink Namespace定义,且具备唯一性。Flow上可以定义处理逻辑,是一种流上处理的逻辑抽象, 通过与物理Spark Streaming、Flink Streaming解耦, 使得同一个Stream可以处理多个Flow处理流,且Flow可以在不同Stream上任意切换。

    copyright www.7zhao.net

    ✔  支持基于回灌(backfill)的Kappa架构;支持基于Wormhole Job的Lambda架构 内容来自www.7zhao.net

  • 从内部角度看待设计思想 内容来自www.7zhao.net

    ✔ 基于Spark Streaming、Flink计算引擎进行数据流上处理。Spark Streaming可支持高吞吐、批量Lookup、批量写Sink等场景;Flink可支持低延迟、CEP规则等场景。 www.7zhao.net

    ✔  通过ums_id_, ums_op_实现 不同Sink的幂等入库 逻辑 去找(www.7zhao.net欢迎您

    ✔  通过计算下推实现Lookup逻辑优化

    本文来自去找www.7zhao.net

    ✔  抽象几个统一以支持功能灵活性和设计一致性 copyright www.7zhao.net

    统一DAG高阶分形抽象 www.7zhao.net

     *  统一通用流消息UMS协议抽象

    www.7zhao.net

    *  统一数据逻辑表命名空间Namespace抽象 欢迎访问www.7zhao.net

    ✔ 抽象几个接口以支持可扩展性 内容来自www.7zhao.net

    *  SinkProcessor:扩展更多Sink支持

    本文来自去找www.7zhao.net

    *  SwiftsInterface:自定义流上处理逻辑支持

    copyright www.7zhao.net

    *  UDF:更多流上处理UDF支持 去找(www.7zhao.net欢迎您

    ✔ 通过Feedback消息实时归集流式作业动态指标和统计

    欢迎访问www.7zhao.net

Wormhole功能特性

本文来自去找www.7zhao.net

  • 支持可视化,配置化,SQL化开发实施流式项目 本文来自去找www.7zhao.net

  • 支持指令式动态流式处理的管理、运维、诊断和监控 www.7zhao.net

  • 支持统一结构化UMS消息和自定义半结构化JSON消息

    本文来自去找www.7zhao.net

  • 支持处理增删改三态事件消息流 本文来自去找www.7zhao.net

  • 支持单个物理流同时并行处理多个逻辑业务流

    内容来自www.7zhao.net

  • 支持流上Lookup Anywhere,Pushdown Anywhere www.7zhao.net

  • 支持基于业务策略的事件时间戳流式处理 copyright www.7zhao.net

  • 支持UDF的注册管理和动态加载

    本文来自去找www.7zhao.net

  • 支持多目标数据系统的并发幂等入库 copyright www.7zhao.net

  • 支持多级基于增量消息的数据质量管理 欢迎访问www.7zhao.net

  • 支持基于增量消息的流式处理和批量处理 www.7zhao.net

  • 支持Lambda架构和Kappa架构 去找(www.7zhao.net欢迎您

  • 支持与三方系统无缝集成,可作为三方系统的流控引擎 去找(www.7zhao.net欢迎您

  • 支持私有云部署,安全权限管控和多租户资源管理 欢迎访问www.7zhao.net

Wormhole技术架构

去找(www.7zhao.net欢迎您

copyright www.7zhao.net

图8 Wormhole数据流转架构图 copyright www.7zhao.net

更多Wormhole技术细节和用户界面,可以参看:

copyright www.7zhao.net

去找(www.7zhao.net欢迎您

本文来自去找www.7zhao.net

GitHub用户手册:

内容来自www.7zhao.net

https://github.com/edp963/wormhole

本文来自去找www.7zhao.net

(4) 常用数据计算存储选型

去找(www.7zhao.net欢迎您

RTDP架构对待数据计算存储选型的选择采取开放整合的态度。不同数据系统有各自的优势和适合的场景,但并没有一个数据系统可以适合各种各样的存储计算场景。因此当有合适的、成熟的、主流的数据系统出现,Wormhole和Moonbox会按照需要相应的扩展整合支持。

欢迎访问www.7zhao.net

这里大致列举一些比较通用的选型:

去找(www.7zhao.net欢迎您

  • 关系型数据库(Oracle/MySQL等):适合小数据量的复杂关系计算 欢迎访问www.7zhao.net

  • 分布式列存储系统 copyright www.7zhao.net

    ✔  Kudu:Scan优化,适合OLAP分析计算场景 本文来自去找www.7zhao.net

    ✔  HBase:随机读写,适合提供数据服务场景 本文来自去找www.7zhao.net

    ✔  Cassandra:高性能写,适合海量数据高频写入场景

    去找(www.7zhao.net欢迎您

    ✔  ClickHouse:高性能计算,适合只有insert写入场景(后期将支持更新删除操作)

    内容来自www.7zhao.net

  • 分布式文件系统 本文来自去找www.7zhao.net

    HDFS/Parquet/Hive:append only,适合海量数据批量计算场景

    内容来自www.7zhao.net

  • 分布式文档系统

    内容来自www.7zhao.net

    MongoDB:平衡能力,适合大数据量中等复杂计算 copyright www.7zhao.net

  • 分布式索引系统 本文来自去找www.7zhao.net

    ElasticSearch:索引能力,适合做模糊查询和OLAP分析场景 www.7zhao.net

  • 分布式预计算系统

    本文来自去找www.7zhao.net

    Druid/Kylin:预计算能力,适合高性能OLAP分析场景

    本文来自去找www.7zhao.net

(5) 计算服务平台Moonbox 去找(www.7zhao.net欢迎您

copyright www.7zhao.net

图9 RTDP架构之Moonbox

欢迎访问www.7zhao.net

Moonbox设计思想 内容来自www.7zhao.net

  • 从外部角度看待设计思想 copyright www.7zhao.net

    ✔ 负责对接不同的数据系统,支持统一方式跨异构数据系统即席混算 内容来自www.7zhao.net

    ✔ 提供三种Client调用方式:RESTful服务、JDBC连接、ODBC连接

    www.7zhao.net

    ✔ 统一元数据收口;统一查询语言SQL收口;统一权限控制收口 本文来自去找www.7zhao.net

    ✔ 提供两种查询结果写出模式:Merge、Replace 去找(www.7zhao.net欢迎您

    ✔ 提供两种交互模式:Batch模式、Adhoc模式

    内容来自www.7zhao.net

    ✔ 数据虚拟化实现,多租户实现,可看作是虚拟数据库

    www.7zhao.net

  • 从内部角度看待设计思想 内容来自www.7zhao.net

    ✔ 对SQL进行解析,经过常规Catalyst处理解析流程,最终生成可下推数据系统的逻辑执行子树进行下推计算,然后将结果拉回进行混算并返回 去找(www.7zhao.net欢迎您

    ✔ 支持两层Namespace:database.table,以提供虚拟数据库体验 本文来自去找www.7zhao.net

    ✔ 提供分布式服务模块Moonbox Grid提供高可用高并发能力 www.7zhao.net

    ✔ 对可全部下推逻辑(无混算)提供快速执行通道

    www.7zhao.net

Moonbox功能特性

去找(www.7zhao.net欢迎您

  • 支持跨异构系统无缝混算

    去找(www.7zhao.net欢迎您

  • 支持统一SQL语法查询计算和写入 内容来自www.7zhao.net

  • 支持三种调用方式:RESTful服务、JDBC连接、ODBC连接 本文来自去找www.7zhao.net

  • 支持两种交互模式:Batch模式、Adhoc模式

    欢迎访问www.7zhao.net

  • 支持Cli Command工具 和Zeppelin www.7zhao.net

  • 支持多租户用户权限体系 copyright www.7zhao.net

  • 支持表级权限、列级权限、读权限、写权限、UDF权限 本文来自去找www.7zhao.net

  • 支持YARN调度器资源管理 内容来自www.7zhao.net

  • 支持元数据服务

    欢迎访问www.7zhao.net

  • 支持定时任务

    内容来自www.7zhao.net

  • 支持安全策略
    内容来自www.7zhao.net

Moonbox技术架构 去找(www.7zhao.net欢迎您

本文来自去找www.7zhao.net

图10 Moonbox逻辑模块 欢迎访问www.7zhao.net

更多Moonbox技术细节和用户界面,可以参看:

www.7zhao.net

内容来自www.7zhao.net

GitHub用户手册:

内容来自www.7zhao.net

https://github.com/edp963/moonbox www.7zhao.net

(6) 可视应用平台Davinci

去找(www.7zhao.net欢迎您

www.7zhao.net

图11 RTDP架构之Davinci

去找(www.7zhao.net欢迎您

Davinci设计思想

www.7zhao.net

  • 从外部角度看待设计思想

    本文来自去找www.7zhao.net

    ✔  负责各种数据可视化展示功能

    欢迎访问www.7zhao.net

    ✔  支持JDBC数据源 去找(www.7zhao.net欢迎您

    ✔  提供平权用户体系,每个用户可以建立属于自己的Org、Team和Project

    去找(www.7zhao.net欢迎您

    ✔  支持SQL编写数据处理逻辑,支持拖拽式编辑可视化展示,提供多用户社交化分工协作环境 本文来自去找www.7zhao.net

    ✔  提供多种不同的图表交互能力和定制化能力,以应对不同数据可视化需求 欢迎访问www.7zhao.net

    ✔  提供嵌入整合进其他数据应用的能力 去找(www.7zhao.net欢迎您

  • 从内部角度看待设计思想 欢迎访问www.7zhao.net

    ✔  围绕View和Widget展开。View是数据的逻辑视图;Widget是数据可视化视图

    本文来自去找www.7zhao.net

    ✔  通过用户自定义选择分类数据、有序数据和量化数据,按照合理的可视化逻辑自动展现视图 欢迎访问www.7zhao.net

Davinci功能特性 欢迎访问www.7zhao.net

  • 数据源 www.7zhao.net

    ✔  支持JDBC数据源 欢迎访问www.7zhao.net

    ✔  支持CSV文件上传

    www.7zhao.net

  • 数据视图 内容来自www.7zhao.net

    ✔  支持定义SQL模版

    去找(www.7zhao.net欢迎您

    ✔  支持SQL高亮显示 去找(www.7zhao.net欢迎您

    ✔  支持SQL测试 内容来自www.7zhao.net

    ✔  支持回写操作

    本文来自去找www.7zhao.net

  • 可视组件

    欢迎访问www.7zhao.net

    ✔  支持预定义图表 本文来自去找www.7zhao.net

    ✔  支持控制器组件 copyright www.7zhao.net

    ✔  支持自由样式 去找(www.7zhao.net欢迎您

  • 交互能力

    www.7zhao.net

    ✔  支持可视组件全屏显示

    去找(www.7zhao.net欢迎您

    ✔  支持可视组件本地控制器 本文来自去找www.7zhao.net

    ✔  支持可视组件间过滤联动 www.7zhao.net

    ✔  支持群控控制器可视组件 欢迎访问www.7zhao.net

    ✔  支持可视组件本地高级过滤器 www.7zhao.net

    ✔  支持大数据量展示分页和滑块 copyright www.7zhao.net

  • 集成能力

    copyright www.7zhao.net

    ✔  支持可视组件CSV下载

    copyright www.7zhao.net

    ✔  支持可视组件公共分享

    去找(www.7zhao.net欢迎您

    ✔  支持可视组件授权分享

    欢迎访问www.7zhao.net

    ✔  支持仪表板公共分享 欢迎访问www.7zhao.net

    ✔  支持仪表板授权分享

    www.7zhao.net

  • 安全权限 内容来自www.7zhao.net

    ✔  支持数据 行列权限

    本文来自去找www.7zhao.net

    ✔  支持LDAP登录集成 copyright www.7zhao.net

更多Moonbox技术细节和用户界面,可以参看:

www.7zhao.net

copyright www.7zhao.net

GitHub用户手册: 本文来自去找www.7zhao.net

https://github.com/edp963/davinci 本文来自去找www.7zhao.net

3

www.7zhao.net

切面话题讨论 欢迎访问www.7zhao.net

(1) 数据管理

内容来自www.7zhao.net

  • 元数据管理

    欢迎访问www.7zhao.net

    ✔  DBus可以实时拿到数据源的元数据并提供服务查询 copyright www.7zhao.net

    ✔  Moonbox可以实时拿到数据系统的元数据并提供服务查询

    内容来自www.7zhao.net

    ✔  对于RTDP架构来说,实时数据源和即席数据源的元数据信息可以通过调用DBus和Moonbox的RESTful服务 归集 ,可以基于此建设企业级元数据管理系统 copyright www.7zhao.net

  • 数据质量

    内容来自www.7zhao.net

    ✔ Wormhole可以配置消息实时落入HDFS(hdfslog)。基于hdfslog的Wormhole Job支持Lambda架构;基于hdfslog的Backfill支持Kappa架构。可以通过设置定时任务选择Lambda架构或者Kappa架构对Sink进行定时刷新,以确保数据的最终一致性。Wormhole还支持将流上处理异常或Sink写入异常的消息信息实时Feedback到Wormhole系统中,并提供RESTful服务供三方应用调用处理。 内容来自www.7zhao.net

    ✔ Moonbox可以对异构系统进行即席混算,这个能力赋予Moonbox“瑞士军刀”般的便利性。可以通过Moonbox编写定时SQL脚本逻辑,对关注的异构系统数据进行比对,或对关注的数据表字段进行统计等,可以基于Moonbox的能力二次开发数据质量检测系统。

    www.7zhao.net

  • 血缘分析

    本文来自去找www.7zhao.net

    ✔ Wormhole的流上处理逻辑通常SQL即可满足,这些SQL可以通过RESTful服务进行归集。

    本文来自去找www.7zhao.net

    ✔ Moonbox掌管了数据查询的统一入口,并且所有逻辑均为SQL,这些SQL可以通过Moonbox日志进行归集。 本文来自去找www.7zhao.net

    ✔ 对于RTDP架构来说,实时处理逻辑和即席处理逻辑的SQL可以通过调用Wormhole的RESTful服务和Moonbox的日志归集,可以基于此建设企业级血缘分析系统。

    本文来自去找www.7zhao.net

(2) 数据安全

内容来自www.7zhao.net

copyright www.7zhao.net

图12 RTDP数据安全

内容来自www.7zhao.net

上图给出了RTDP架构中,四个开源平台覆盖了端到端数据流转链路,并且在每个节点上都有对数据安全各个方面的考量和支持,确保了实时数据管道端到端的数据安全性。 内容来自www.7zhao.net

另外,由于Moonbox成为了面向应用层数据访问的统一入口,因此基于Moonbox的操作审计日志可以获得很多安全层面的信息,可以围绕操作审计日志建立数据安全预警机制,进而建设企业级数据安全系统。 本文来自去找www.7zhao.net

(3) 开发运维 copyright www.7zhao.net

  • 运维管理 欢迎访问www.7zhao.net

    ✔ 实时数据处理的运维管理向来是个痛点,DBus和Wormhole通过可视化UI提供了可视化运维管理能力,让人工运维变得简单。

    去找(www.7zhao.net欢迎您

    ✔ DBus和Wormhole提供了健康检查、操作管理、Backfill、Flow漂移等RESTful服务,可以基于此研发自动化运维系统。 copyright www.7zhao.net

  • 监控预警 去找(www.7zhao.net欢迎您

    ✔ DBus和Wormhole均提供可视化监控界面,可以实时看到逻辑表级的吞吐和延迟等信息。

    www.7zhao.net

    ✔ DBus和Wormhole提供了心跳、Stats、状态等RESTful服务,可以基于此研发自动化预警系统。

    内容来自www.7zhao.net

本文来自去找www.7zhao.net

模式场景探讨

copyright www.7zhao.net

上一章我们介绍了RTDP架构各个技术组件的设计架构和功能特性,至此读者已经对RTDP架构如何落地有了具体的认识和了解。那么RTDP架构可以解决哪些常见数据应用场景呢?下面我们会探讨几种使用模式,以及不同模式适应何种需求场景。

欢迎访问www.7zhao.net

1

copyright www.7zhao.net

同步模式

欢迎访问www.7zhao.net

(1)  模式描述 去找(www.7zhao.net欢迎您

同步模式,是指只配置异构数据系统之间的数据实时同步,在流上不做任何处理逻辑的使用模式。

copyright www.7zhao.net

具体而言,通过配置DBus将数据从数据源实时抽取出来投放在Kafka上,然后通过配置Wormhole将Kafka上数据实时写入到Sink存储中。同步模式主要提供了两个能力:

本文来自去找www.7zhao.net

  • 后续数据处理逻辑不再执行在业务备库上,减少了对业务备库的使用压力

    本文来自去找www.7zhao.net

  • 提供了将不同物理业务备库数据实时同步到同一物理数据存储的可能性 本文来自去找www.7zhao.net

(2) 技术难点

本文来自去找www.7zhao.net

具体实施比较简单。 copyright www.7zhao.net

IT实施人员无需了解太多流式处理的常见问题,不需要考虑流上处理逻辑实现的设计和实施,只需要了解基本的流控参数配置即可。 www.7zhao.net

(3) 运维管理 本文来自去找www.7zhao.net

运维管理比较简单。

内容来自www.7zhao.net

需要人工运维。但由于流上没有处理逻辑,因此容易把控流速,无需考虑流上处理逻辑本身的功耗,可以给出一个相对稳定的同步管道配置。并且也很容易做到定时端到端数据比对来确保数据质量,因为源端和目标端的数据是完全一致的。

www.7zhao.net

(4) 适用场景

去找(www.7zhao.net欢迎您

  • 跨部门数据实时同步共享 内容来自www.7zhao.net

  • 交易数据库和分析数据库解耦 内容来自www.7zhao.net

  • 支持数仓实时ODS层建设 内容来自www.7zhao.net

  • 用户自助实时简单报表开发 去找(www.7zhao.net欢迎您

  • 等等 www.7zhao.net

2

欢迎访问www.7zhao.net

流算模式

欢迎访问www.7zhao.net

(1) 模式描述

www.7zhao.net

流算模式,是指在同步模式的基础上,在流上配置处理逻辑的使用模式。 copyright www.7zhao.net

在RTDP架构中,流上处理逻辑的配置和支持主要在Wormhole平台上进行。在同步模式的能力之上,流算模式主要提供了两个能力: 欢迎访问www.7zhao.net

  • 流上计算将批量计算集中功耗分散在流上增量计算持续功耗,极大降低了结果快照的时间延迟

    内容来自www.7zhao.net

  • 流上计算提供了跨异构系统混算的新的计算入口(Lookup)

    去找(www.7zhao.net欢迎您

(2) 技术难点 欢迎访问www.7zhao.net

具体实施相对较难。 欢迎访问www.7zhao.net

用户需要了解流上处理能做哪些事,适合做哪些事,如何转化全量计算逻辑成为增量计算逻辑等。还要考虑流上处理逻辑本身功耗和依赖的外部数据系统等因素来调节配置更多参数。 本文来自去找www.7zhao.net

(3) 运维管理 欢迎访问www.7zhao.net

运维管理相对较难。 www.7zhao.net

需要人工运维。但比同步模式运维管理更难,主要体现在流控参数配置考虑因素较多、无法支持端到端数据比对、要选择结果快照最终一致性实现策略、要考虑流上Lookup时间对齐策略等方面问题。 内容来自www.7zhao.net

(4) 适用场景

内容来自www.7zhao.net

  • 对低延迟要求较高的数据应用项目或报表 www.7zhao.net

  • 需要低延迟调用外部服务(如流上调用外部规则引擎、在线算法模型使用等)

    欢迎访问www.7zhao.net

  • 支持数仓实时事实表+维度表的宽表建设

    本文来自去找www.7zhao.net

  • 实时多表融合、分拆、清洗、标准化Mapping场景

    www.7zhao.net

  • 等等 copyright www.7zhao.net

3 copyright www.7zhao.net

轮转模式 www.7zhao.net

(1) 模式描述 去找(www.7zhao.net欢迎您

轮转模式,是指在流算模式的基础上,在数据实时落库中,同时跑短时定时任务在库上进一步计算后,将结果再次投放在Kafka上跑下一轮流上计算,这样流算转批算、批算转流算的使用模式。 本文来自去找www.7zhao.net

在RTDP架构中,可以利用Kafka->Wormhole->Sink->Moonbox->Kafka的整合方式实现任何轮次任何频次的轮转计算。在流算模式的能力之上,轮转模式提供的主要能力是:理论上支持低延迟的任何复杂流转计算逻辑。 内容来自www.7zhao.net

(2) 技术难点 www.7zhao.net

具体实施难。 内容来自www.7zhao.net

Moonbox转Wormhole能力的引入,比流算模式进一步增加了考虑的变量因素,如多Sink的选择、Moonbox计算的频率设定、如何拆分Wormhole和Moonbox的计算分工等方面问题。

内容来自www.7zhao.net

(3) 运维管理 本文来自去找www.7zhao.net

运维管理难。 www.7zhao.net

需要人工运维。和流算模式比,需要更多数据系统因素的考虑、更多参数的配置调优、更难的数据质量管理和诊断监控。

本文来自去找www.7zhao.net

(4) 适用场景

copyright www.7zhao.net

  • 低延迟的多步骤的复杂数据处理逻辑场景

    本文来自去找www.7zhao.net

  • 公司级实时数据流转处理网络建设

    去找(www.7zhao.net欢迎您

4 去找(www.7zhao.net欢迎您

智能模式

copyright www.7zhao.net

(1) 模式描述 内容来自www.7zhao.net

智能模式,是指利用规则或算法模型来进行优化和增效的使用模式。 本文来自去找www.7zhao.net

可以智能化的点: 欢迎访问www.7zhao.net

  • Wormhole Flow的智能漂移(智能化自动化运维) 本文来自去找www.7zhao.net

  • Moonbox预计算的智能优化(智能化自动化调优) 内容来自www.7zhao.net

  • 全量计算逻辑智能转换成流式计算逻辑,然后部署在Wormhole + Moonbox(智能化自动化开发部署)

    欢迎访问www.7zhao.net

  • 等等

    内容来自www.7zhao.net

(2) 技术难点 内容来自www.7zhao.net

具体实施在理论上最简单,但有效的技术实现最难。

www.7zhao.net

用户只需要完成离线逻辑开发,剩下交由智能化工具完成开发、部署、调优、运维。 copyright www.7zhao.net

(3) 运维管理 copyright www.7zhao.net

零运维。

内容来自www.7zhao.net

(4) 适用场景

copyright www.7zhao.net

全场景。 内容来自www.7zhao.net

自此,我们对“如何设计实时数据平台”这个话题的讨论暂时告一段落。我们从概念背景,讨论到架构设计,接着介绍了技术组件,最后探讨了模式场景。由于这里涉及到的每个话题点都很大,本文只是做了浅层的介绍和探讨。后续我们会不定期针对某个具体话题点展开详细讨论,将我们的实践和心得呈现出来,抛砖引玉,集思广益。如果对RTDP架构中的四个开源平台感兴趣,欢迎在GitHub上找到我们,了解使用,交流建议。

copyright www.7zhao.net

本文来自去找www.7zhao.net

如想了解更多,您还可以: www.7zhao.net

1.到Github浏览更多平台信息

去找(www.7zhao.net欢迎您

DB us地址

内容来自www.7zhao.net

https://github.com/BriData/DBus 内容来自www.7zhao.net

Davinci地址

欢迎访问www.7zhao.net

https://github.com/edp963/davinci 内容来自www.7zhao.net

Wormhole地址

欢迎访问www.7zhao.net

https://github.com/edp963/wormhole 欢迎访问www.7zhao.net

Moonbox地址

copyright www.7zhao.net

https://github.com/edp963/moonbox

去找(www.7zhao.net欢迎您

2.加入微信群,和技术大神们点对点交流 本文来自去找www.7zhao.net

请先添加小助手:edpstack  欢迎访问www.7zhao.net

(烦请告知小助手您的信息来源哦~如:“微信公众号”、“知乎专栏”、“CSDN”、“今日头条”等等~)

欢迎访问www.7zhao.net

www.7zhao.net

去找(www.7zhao.net欢迎您

copyright www.7zhao.net


本文原文地址:https://mp.weixin.qq.com/s/0zm_eVlTDmuReTJ1UTk0zg

以上为如何设计实时数据平台文章的全部内容,若您也有好的文章,欢迎与我们分享!

www.7zhao.net

Copyright ©2008-2017去找网版权所有   皖ICP备12002049号-2 皖公网安备 34088102000435号   关于我们|联系我们| 免责声明|友情链接|网站地图|手机版