简介
阳光大数据中心平台,是建立在开源的hadoop体系之上的大数据处理平台,通过图形化的界面提供便捷的流程编排、任务调度、系统监控等功能。
工作流程
工作流程 | |||||||||
分析与确定 | 流程设置 | 实施与监控 | 支撑效果评估 | ||||||
需求 | 实施 | 日常运维 | |||||||
取数
| 模型设计 | … | 流程设计
| 任务设置
| … | ETL作业 | 告警
| … |
管理门户
阳光统一数据中心 统一管理平台 >>>> 管理集中化 >>>> 海量数据处理 >>>> 流程标准化
分布式数据处理
通过分发数据,可以在数据所在的节点上并行的快速处理
元数据管理
业务元数据的管理,保障口径的统一
数据质量
确保数据的品质服务
数据安全
对数据资产进行有效的保护
运维管理
对系统运行软、硬件环境、进行管控
无代码配置 | 全程可视化 | ||
统一调度平台 | 统一作业平台 | 元数据管理 | 统一监控平台 |
系统角度,通过集成手段将不同数据、不同系统的数据真正的管理起来。 | 将现在有ETL的半自动化作业平台,建立成全数据的作业化 标准化、流程化的应用开发流程,提供更广泛的应用共享,和复杂平台下的应用所需的系统基础构建支撑能力。 | 统一的对的元数据进行资源管控, 从数据源头出发,建立起从接口、 仓库、数据分发的标准、 统一的技术架构 | 从管理角度看,在多平台下, 建立从开发全生命周期到 运维监控的数据管控能力。 |
面对数据:提供全面、标准化管理能力
传统结构化数据源 >>> 实时数据源 >>> 统一数据管理中心
统一接口统一ETL任务处理<<< 非结构/结构数据源<<< 非结构外部数据源(互联网等)
全面管理:能管的都管起来
支持结构化数据源。如DB2,Oracle等关系型数据库的抽取加载;
支持非结构化数据源。如xml数据、json,html,xls等;
支持实时数据源;
支持对多种数据库、数据源进行统一接入;
支持日、月、周、不定期、实时数据采集;
支持元数据管理。
面对开发:提供无编码智能开发的能力
告别代码方式实现智能开发
原始数据 >> 数据抽取 >> 数据转换 >> 数据加载 >> 结果数据
无需编写代码、在MapReduce运行抽取处理技术;
支持多种格式转换、合并&再次使用;
采用界面配置方式,实现MapReduce配置,无需生成任何代码;
在Windows上本地进行测试,再部署到Hadoop上。
面对管理:提供全流程作业配置能力
可以将异构平台的服务器任务按照先后顺序和逻辑关系组成一可以实时监控的作业网,并且可以根据日程表或各种策略来自动执行当中的作业,完成服务器任务的高效化自动管理。
作业前台配置 手动拖拽全业务配置 | 多项作业处理 | 作业1 | 第一项作业 |
作业2 | 第一项作业 | ||
作业预演 作业合规性检查 作业测试 作业试运行 | 作业3 | 第一项作业 | |
作业发布 作业注册 作业上线管理 作业下线管理 | 所有应用的hadoop作业必须通过统一作业平台在统一调度平台上注册 | …… | …… |
作业N | 第N项作业 | ||
作业结束 | 作业结束 |
面对使用者:提供统一可视化展现能力
大数据管理中心 >> 统一监控平台管理 > ETL作业流程管理 > 统一调度平台管理 > 元数据管理
云ETL功能全景图
展现层 | 系统告警 | 重点流程监控 | 我的任务 | 时间轴进度 | 指标监控 | |||
调度层 | 调度配置 | 调度管理 | 日志管理 | 复杂事件处理中心 | ||||
触发配置 | 模板管理 | 调度引擎 | 调度日志 | 高可用 | 实时监控 | |||
JOB树管理 | 采集配置 | 工作流管理 | 登陆日志 | 负载均衡 | 节点监控 | |||
转换配置 | 加载配置 | 节点扩展 | ||||||
组件层 | 采集 | 转换 | 加载 | 处理脚本 | 数据交互 | |||
Ftp | SFtp | 拆分 | 合并 | 文件加载 | 存储过程 | GreenPlum | DB2 | |
Api | JDBC | 字段转换 | 合法检查 | 流加载 | Per脚本 | Teradata | Hadoop | |
实时抽取 | 数据校验 | 空置处理 | 数据校验 | 压缩加载 | Shell脚本 | HBase | ||
多网卡适配 | 库外处理 | 库内处理 | 不落地加载 |
云ETL关键能力:作业流程实现半自动化
产品支持各种复杂作业关系配置,系统通过人工手动图形化界面配置从前端快速简明的配置作业任务,提供作业执行流程监控,可视化管理。
支持定时、常驻任务,灵活的定义时间格式
支持数据触发,作业关系管理
多种作业节点类型配置,支持tcl、shell、python、java
1、拖放图标(一个图标代表一个作业)
2、按照执行顺序用箭头连接,绘制作业流程!
云ETL关键能力:任务实现跨平台调度
任务流程调度模块,提供跨系统跨平台的任务调度功能,与各子系统紧密接合,支持跨越平台、跨系统间隔实现完整无空隙运行的统一调度。
创建任务 JDBC shell Perl Webservice Hadoop API 不落地传输 ....
内部任务管理 平台配置调度任务
任务管理 任务调度线程池:任务1 、任务2、任务3 、任务4、任务n
任务调度 >> 选取满足条件的任务,例如定时,条件等 >> 分配任务执行代理客户端 >> 向执行代理客户端发送任务,并等待执行结果 >> 接受执行结果和日志,更新任务执行数据日期
发送任务执行命令 TCP/IP
任务执行 agent1 >> agent2 >> agent3 >> agent4 >> Agent…
返回任务执行结果和日志
云ETL关键能力:实现对集群的监控管理
返回任务执行结果和日志
可用性监控视图:统一监控Server和代理节点设备,可以直观监控Server和代理节点及应用是否运行正常。
性能分析视图:实时监控Server及代理节点机硬件状态以及JOB的运行状态。包括硬件资源消耗情况,JOB运行状态、JOB占用资源等。
支持平台节点自动安装部署及运维管理能力
节点管理:
支持集群中节点在线添加、移除,在节点上自动部署Agent代理,自动实现后续节点的监控、服务管理能力。
JOB管理:
前端执行任务更新操作,对当前未运行job更新,删除未运行job,或者添加job,并不中断系统运行过程,更新、修改后的job要及时反映到数据库。
云ETL关键能力:实现对流式数据的处理
针对高性能海量数据的实时处理,为满足高效低延迟需求,平台既可以在实时抽取基础之上进行扩展使之支持流式数据采集能力,也可以提供通过借助流式计算引擎来完成数据采集作业的工作模式。
数据源 > 事件1 > 事件2 > 事件3 > 事件4 ... > 事件n 事件侦听器 消息队列 消息1 > 消息2 > 消息3 > 消息4
方案一
采集Job > 拆分 > Sub-job > Sub-job > Sub-job > Reader插件
JMS Reader > 数据处理插件 > 双缓冲区队列 > 写Buffer > 读Buffer
FrameWork(解决缓冲,流控,并发,上下文加载等问题)
方案二
JMS Reader(消息读取) 流式计算引擎 消息接收器(Spout) XML 消息计算处理1 > 消息计算处理N > Writer(输出)