5月3日,星环科技在上海举办了2018第二届前沿科技论坛暨星环用户大会,在此次大会上,星环宣布了众多的重磅消息:发布最新的系列产品、星环TDH平台通过TPC-DS基准测试、与新加坡人工智能核心项目签署了战略合作协议……
剥丝抽茧这些消息,我们不难发现星环在大数据底层基础产品研发领域已经走出了一条自己的道路,在这条道路上星环的产品经历了怎样的变化?新发布的TDH 6.0有哪些技术细节和性能优化?新增的人工智能产品线如何发展……针对这些问题,我们在第九届中国数据库技术大会上采访到了星环科技的大数据研发总监刘汪根。
刘汪根,负责星环科技大数据平台软件Transwarp Data Hub的研发工作,主导开发星环大数据平台的大量创新功能,包括国内领先的完整兼容SQL标准的Hadoop SQL编译器,首个完整支持ACID属性的分布式事务,稳定高效的分布式执行引擎。
通 关 TPC-DS 基准测试 ,星环 TDH 6.0 技术细节 披露
“星环TDH平台成为全球首个通过经过官方审核的TPC-DS基准测试的数据平台,打破了该领域十二年来没有厂商通过该项测试的局面”。这个消息一出,无疑给了“基础软件国产化”一剂强效鸡血。
“通过TPC-DS基准测试对于星环TDH来说,更多的是意味着我们的产品可以7*24小时的满足非常严苛的生产需求,在使用性、稳定性和产品全面性方面达到了非常好的水平。”在谈到新发布的星环 TDH 6.0时,刘汪根也透露了很多技术细节。
实时处理引擎: 大多数时候,讲实时处理其实是在讲实时计算引擎,尤其是在延时和吞吐两个方面的体现。一年前,星环完成了高吞吐、低延时实时计算引擎的研发工作,延迟时间可缩减到5毫秒,是Spark Streaming引擎延时的1/100。另外,据刘汪根透露星环实时计算引擎里加入了一些机器学习的常规算法。
降低 入门门槛: 任何产品的发布使用都是一个比较复杂的过程,你需要去学习编程语言、调试、发布等等。但星环TDH 6.0提供了整个的开发平台,在处理复杂的编程调试时,可以直接拖拽基于统一化规则的事件。
完整的开发工具链: 大数据开发存在的一个很大问题是工具链的不完善,有些常规工具的正负面反馈几乎是一样多的,而星环把整个大数据底层的开发工具都打通了,IDE、大数据工具、调度流工具、日志检索类工具等等全部都做到了开箱即用。
五大产品线,星环瞄准 “人工智能”的会心一击
如果大家留心观察了星环的产品,就会发现原来大数据平台TDH中的人工智能相关模块在6.0版本中消失了。在5月3日的用户大会上,星环宣布新增人工智能的产品线,并与云、大数据、数据库、一体机共同组成五大产品线。为什么会开辟人工智能产品线,这条产品线又如何与其它产品线相关联呢?
“在帮助用户打好数据基础之后,我们发现还需要帮助用户解决在人工智能方面的准入门槛,这就是我们选择开辟人工智能产品线的初衷。”刘汪根这样表示。据悉目前星环的人工智能产品线在做两件事,一件是打造通用的工具,让合作伙伴快速切入应用,另一件是和合作伙伴共同打造垂直市场的人工智能解决方案。
星环人工智能产品线如何与其它产品线关联呢?星环的研发体系是一个“中台+前台”的设计,就人工智能产品线而言,有一些产品是人工智能专有的,例如建模工具、模型筛选、应用对接等等。但其底层开发却需要其他产品线的配合,例如基于Spark的计算引擎、基于TensorFlow的计算引擎、所有后台、服务治理、技术软件安全等等都是由中台研发部门统一提供。这样的研发体系设计使得星环不论是产品发布还是对于客户业务需求的响应速度都比之前快很多。
“ Hadoop 是对传统数据仓库的补充而非替代” , 时至今日我已不再认同
2006年,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展,当时甚至是在Hadoop发展了一段时间之后,很多人都称“Hadoop是对传统数据仓库的补充而非替代。”时至今日,Hadoop应用场景日益丰富,业内专家是否还认同这一观点呢?
“我不是特别认同这个观点了”,刘汪根明确的表达自己的想法,“如果你只是使用开源的Hadoop,那么很可能你并不能适用核心功能,所以只能是数据仓库的一个补充。但是当我们通过数据多加工、支持高并发用户访问、对接其它系统、复杂SQL业务、多种业务建模、低延时的复杂事件处理、海量数据的高速检索等等建造了一个完备的系统时,Hadoop就不再只是传统数仓的补充,而是替代了。”
|