| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 软件>

中国邮政邮科院 X DorisDB:统一OLAP平台,大幅降低运维成本

2021-08-19 14:54 作者:佚名 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

邮政科学研究规划院有限公司(以下简称“邮科院”),作为中国邮政集团有限公司的科研智库单位,专注于战略规划、企业管理、工程设计、物流装备、智能终端、质量检测、标准化研究等领域,在助力中国邮政战略转型和经营发展中发挥着重要支撑作用。

邮科院数据组负责全院大数据体系架构的建设,支撑日常BI运营分析、科研数据产品、物流数据、网点画像等业务场景。邮科院数据组通过使用DorisDB,统一了实时和离线的分析场景,替换了ClickHouse、Presto、MySQL等系统,解决了原有多套系统带来的运维和使用复杂性,简化了数据ETL流程,同时大幅提升OLAP、Adhoc等场景的查询效率。本文主要介绍邮科院数据组基于新一代极速全场景MPP数据库DorisDB,在数据服务体系和数据应用场景中的实践和探索。

“作者:谢翔 邮政科学研究规划院有限公司寄递研究所数据组负责人,专注于数仓建设、数据分析等领域研究。”

一、业务背景

随着科研数据积累越来越大,数据规模和体量也急剧膨胀。科研的原始数据通常来源于研报抽取、日志埋点文件、业务数据库、三方接口等。过去通常基于CDH/Hadoop等大数据分布式计算框架和数据集成工具,构建离线的数据仓库,并对数据进行适当的分层、建模、加工和管理,构建各类分析主题。邮科院数据体系中沉淀了诸多研报主题数据,例如:电商流量数据,物流企业财务数据,行业报告相关的数据等。

上层数据应用对查询的响应延迟和时效性要求高,会将数据通过数据同步工具同步到MySQL、ElasticSearch、Presto、HBase、ClickHouse等数据库系统中,来支撑上层数据应用的查询要求。

邮科院的大数据总体架构如下图所示,从下到上可以分为数据接入层、数据计算层、数据服务层和数据应用层。

 

数据计算层使用科研工作各分析场景下产生的模型/方案/业务的明细数据,进行离线数据计算,对TB级别的明细数据进行调度、聚合、计算,在数仓里沉淀出大量明细表、聚合表和最终的数据报表。

数据计算层生成的各类数据表,会同步到数据服务层,由数据服务层提供接口给数据应用层使用,满足不同的数据业务需求。

二、业务痛点

数据服务层的愿景是开放数仓能力,建立统一的数据服务出口,针对不同的数据业务分析场景(数据规模、QPS、UDF支持、运维成本等),原有架构在底层使用了不同的查询引擎:

·大数据量、低QPS:使用Hive、Presto、ClickHouse等基于Hadoop生态的离线批任务计算框架和MPP数据库来解决。

·小数据量、高QPS:使用MySQL、ElasticSearch、HBase、MongoDB等关系型/非关系型数据库来解决。

使用多套查询引擎,我们遇到如下问题和挑战:

·离线/实时ETL任务过多,处理逻辑大部分为简单聚合/去重,聚合表数量庞大,导致运营和运维上的成本增加;

·针对中等数据量、中等QPS的查询场景,如何能兼顾数据规模的同时,有较友好的查询响应延迟;

·大数据量下插入、更新的实时数据场景无法得到支持,例如:网点画像、实时数据导入、邮路路径、研报数据汇总等。

三、OLAP引擎选型

针对如上的问题和挑战,我们的目标是寻求尽可能少的OLAP引擎,利用在明细表上现场计算来解决ETL任务、数仓表过多问题,同时需要兼顾在数据规模、查询QPS、响应耗时、查询场景方面的权衡。

目前市面上OLAP引擎百花齐放,诸如Impala、Druid、ClickHouse、DorisDB。经过一番调研,我们最终选择了DorisDB。DorisDB是基于MPP架构的分析型数据库,自带数据存储,整合了大数据框架的优势,支持主键更新、支持现代化物化视图、支持高并发和高吞吐的即席查询等诸多优点,天然能解决我们上述的问题。

 

四、DorisDB应用实践

DorisDB已经投入生产环境,主要作为离线/实时数据的OLAP数据库使用。离线数据主要存储于HDFS中,通过DataX任务批量同步数据到DorisDB;另一部分实时数据主要存储于Kafka中,使用DorisDB的routine load功能实时将数据从kafka写入到DorisDB。

在没有引入DorisDB之前,我们使用的底层引擎是MySQL、Presto on HDFS和ClickHouse等系统,对明细表/聚合表进行查询。这几种方式都存在着不少问题:

·MySQL处理上亿规模的数据,无论使用分库分表、分区表、集群化部署的PolarDB方案,都会存在慢查询、数据库扛不住、运维困难的窘境;

·Presto on HDFS的方案更偏向于分析型数据业务,虽然能存储海量的数据,计算能力不错,唯一致命的在于无法满足在线业务的高吞吐QPS,查询比较难做到毫秒级。

·ClickHouse对Join支持较弱,通常使用大宽表建模,不够灵活,另外运维也比较复杂。

·在引入DorisDB替换MySQL、Presto和ClickHouse后,DorisDB带来的业务效果如下:

·支撑了在线报表查询+数据分析业务,服务于对内运营+对外行业分析的数据产品,报表业务查询大部分耗时在毫秒级别,分析型业务查询大部分耗时在秒级别;

·支持10亿规模的明细表查询,月、季、年等维度统计数据现场算聚合统计、精准去重等,查询耗时都能控制在500ms以内;

·千万级别的多表的Join和union查询,经过Colocate Join特性优化,查询响应在秒级。

另外,我们还将DorisDB应用到实时数据分析场景,DorisDB在实时数据分析主要有如下优势:

·实时写入性能:目前DorisDB支持HTTP方式的Stream Load,可以自定义的分钟级别微批写入,以及Routine Load功能,可以将Kafka的数据实时同步到DorisDB中,满足当前实时数据分析业务;

·统一离线和实时分析:实时数据和离线数据更好的在DorisDB中进行融合,灵活支撑应用,数据存储策略通过DorisDB动态分区的功能进行自动管理;

·SQL Online Serving:高效的SQL即席查询能力,能够兼容业界标准的SQL规范,支撑业务灵活复杂的访问,提高取数开发的效率。

五、总结和规划

邮科院数据组引入DorisDB生产集群,解决了数据服务层单表亿级别规模、高QPS数据场景下引擎的空白,直接开放明细表准实时查询的能力,给各项目组上层数据业务和BI系统提供了更多的选择和自由度,同时将大大减少数仓中大量ETL任务、聚合表、报表,降低了数仓ETL的运维压力和维护成本,DorisDB综合性价比较原有的MySQL、Presto、ClickHouse等同类产品提升数倍以上。

未来,邮科院在DorisDB的应用和实践上还有不少规划:

·除了unique和duplicate数据模型,未来会将符合的数据场景迁移至aggregation模型,并使用物化视图,进一步降低数仓开发维护成本,降低查询延迟;

·DorisDB on ES的功能也值得我们深挖和探索,解决原生ES集群无法支持跨索引Join的能力;

·更多数据应用层的场景接入DorisDB,例如网点画像服务、邮路路径分析等,将进一步拓展DorisDB在实时数据写入、批量数据更新场景中的应用;

·与科研数据分析平台、数仓平台深度打通,完善数据整体架构,作为数据团队的基础设施去保障稳定性和服务;

·考虑使用多云架构,自主可控的数仓架构可以灵活的在多云间切换迁移,降低单一云厂商的依赖,控制成本提高可用性。

·......

最后的最后,感谢DorisDB技术团队给予的热情、靠谱的答疑解惑和技术支持!!!

【对“中国邮政邮科院 X DorisDB:统一OLAP平台,大幅降低运维成本”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
·Lenovo x DorisDB:简化数据处理链路,极大提升B
·贝壳找房 x DorisDB:全新统一的极速OLAP平台实
·好未来 x DorisDB:全新实时数仓实践,深入释放
·小红书基于DorisDB实现数据服务平台统一化,简化
·58集团x DorisDB:全面升级数据分析能力 满足多
·DorisDB在千亿级日增数据场景下替换Greenplum的
头条
滴滴出行严重违法违规收集使用个人信息被下架整改 滴滴出行严重违法违规收集使用个人信息被下架
网信中国微信公众号2021年7月4日消息:根据举报,经检测核实,滴滴出行App存在严重违……
·谷歌2021年9月份起禁止安卓2.3.7设备登录谷歌
·滴滴出行严重违法违规收集使用个人信息被下架
·微软透露对Windows10系统支持将于2025年10月
·谷歌Android 12测试版反广告跟踪设置不如iOS
·抖音、快手等App违法违规收集使用个人信息被
图文
小米发布MIUI12.5增强版 小米MIUI12.5增强版更流畅
小米发布MIUI12.5增强版 小米MIUI12.5增强
云桌面行业发展迅速,2020-2021年度国产云桌面十大品牌出炉!
云桌面行业发展迅速,2020-2021年度国产云
知米背单词APP那些不为人知的小细节(图)
知米背单词APP那些不为人知的小细节(图)
Realme引入广告什么情况 Realme广告怎么设置关闭?
Realme引入广告什么情况 Realme广告怎么设
热点
·群控、云控时代即将终结,智控时代已到来
·106短信群发平台APP,致力于成为领域内佼佼者
·DT小听App:防偷拍,还是用这款国产app(图)
·软件技术行业发展变化非常快,软件人才要按需
·嗨学网一级消防可靠吗?新手妈妈亲生经历告诉
旧闻
·DataCanvas周晓凌:企业AI构建需要数据科学平
·支付宝调整还款日 用户可选择每月这两日还款
·iPhone通讯录没有了?开心手机恢复大师找回教
·谷歌Android 12测试版反广告跟踪设置不如iOS
·传微信将取消公众号信息推送 弱化媒体属性
广告
硅谷精选
小米发布MIUI12.5增强版 小米MIUI12.5增强版更流畅
小米发布MIUI12.5增强版 小米MIUI12.5增强版更流畅
云桌面行业发展迅速,2020-2021年度国产云桌面十大品牌出炉!
云桌面行业发展迅速,2020-2021年度国产云桌面十大品
美柚、乐视视频等14款App未整改开屏弹窗信息
美柚、乐视视频等14款App未整改开屏弹窗信息
滴滴出行严重违法违规收集使用个人信息被下架整改
滴滴出行严重违法违规收集使用个人信息被下架整改
星速浏览器不讲武德,访问海外站点新姿势
星速浏览器不讲武德,访问海外站点新姿势
案例分享 | 瑞数动态安全超融合平台在金融行业的应用与建设
案例分享 | 瑞数动态安全超融合平台在金融行业的应用
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2021 硅谷网. 版权所有. All Rights Reserved. <备案号:京ICP备12003855号-2>