大数据、云计算、人工智能在今天看来早已不是什么新鲜事物,这些领域的快速发展推动着金融行业的不断创新,比如在移动支付、互联网销售、生物识别认证、智能安全监测、大数据分析授信、远程开户等业务方面全面推进,同时信息化系统中已不单单只是存储着结构化的信息数据,比如金融行业各自的APP、多媒体终端、电话销售、销售行为可回溯的双录等方面都存在着大量的音频、视频、图片、地理位置等非结构化的数据存储需求。
业内专家和权威第三方调查机构普遍认为,海量数据时代已经到来。各类复杂数据中,85%以上是属于广泛用于信息网络、物联网、电子商务等场景中的非结构化数据。由于非结构化数据的特点,其数据量远远大于结构化的文件,金融行业已经面临着数据存储容量的大规模增长。许多企业用户已经意识到软件定义分布式存储技术的重要性,基于我们在存储领域多年的实施和应用经验,今天有幸和大家分享我积累的一些经验和见解。
元核云CEO 王凌云
元核云作为一家提供企业级软件定义存储的供应商,从这几年合作的客户(单一客户存储数量超40PB)以及实际案例中归纳出时下海量数据存储情况的几个特征:
1、数据体量巨大:简单来讲就是数据存储单位已经从TB级发展为PB级;
2、数据类型繁多:比如用户行为记录、影像图片、音频、视频、地理位置、文档、日志等等;
3、商业价值高:数据收集后,进行有效统计分析带来的商业价值极高,数据已经成为企业的核心竞争资产;
4、处理速度快:对于海量的数据,金融企业往往要求处理数据的速度必须得快,更快挖掘数据价值才可以创造更好的企业价值。
面对以上海量数据存储特征,传统的信息化存储方式也面临着巨大的挑战:
1、高可靠性:数据对于任何一个行业来说都是企业的核心资产,对于金融行业来说更是重中之重,一切的业务都建立在数据的基础之上。当数据最终存储于硬件介质中,硬件随着使用的时长增加,将面临着设备故障、电器老化、自然损耗等问题。海量数据背景下,存在数量众多的存储硬件设备,当设备发生故障时,往往可能带来数据的丢失或者需要长时间的数据恢复。这样会给金融企业的业务开展带来无法承担的损失。
2、灵活可控性:从我们与金融公司合作的经验来讲,随着数据的快速增长,实现快速扩容也成为满足许多企业进一步发展的必然条件。虚拟化技术的发展使得计算资源得以池化,使得业务系统所需要的计算资源能够按需分配,弹性扩展。同样,企业也需要建立存储的资源池,并能够按需分配和动态增加存储资源,满足业务发展的需要。
3、高并发,低延迟的数据访问方式:在海量数据的应用场景下,对于数据的使用方式,企业提出了更高的要求。面对着高密度数据运算、互联网用户的高并发访问、实时数据分析、机器学习等多种应用场景,数据存储系统必须要满足更高并发的数据访问,同时需要保证较低的响应时效。简单来说,即是需要更为高效的性能表现。而传统的NAS、SAN存储已经有30多年的历史,在其设计之初并非针对如此庞大数据量场景,因此会出现诸如文件索引缓存、服务器机头等技术设计上的先天瓶颈。在海量数据存储场景下,性能表现也会急剧下降。
4、数据使用方式变化:大规模海量数据应用场景下,随着数据的应用方式多样化,需要提供更细粒度的数据管理和使用方式,例如在近年来普遍提到的存储即服务的思路,更推崇将数据存储能力以服务的方式进行暴露,比如:对象存储服务方式。这一方式能有效地降低数据使用方对存储系统的深度耦合性。
而传统存储仍然普遍通过块设备或文件系统的方式提供存储能力,这就大大的限制了数据存储的使用场景。同时由于块设备和文件系统需要大量的初始化动作和对于客户端的要求,也增加了长期数据运维的成本。
相对于传统存储,新一代的软件定义的分布式存储理念已被提出多年。与我们合作的企业都遇到了数据量的大规模增长情况,而分布式存储技术正好能符合这些企业对于当下和未来大规模数据存储的需求。
纵观国际国内技术发展趋势,软件定义的分布式存储技术已经成为越来越多金融企业IT管理者的选择。
元核云正是专注于金融行业的软件定义分布式存储公司。其自主研发的元核云分布式存储产品基于开源的Ceph软件为架构核心,企业客户不用再担心被闭源产品所绑架。同时,该产品在Ceph的基础上进行了深度优化和完善。比如:我们在性能方面针对海量小文件场景、数据IO路径、高速网络、Crush算法进行了优化;在安全稳定性方面设计了故障自动隔离、防数据静默损毁的数据自动校验、数据智能恢复等机制;在管理方面研发了全新的智能运维管理平台,支持跨数据中心多集群的统一管理,轻松扩容和规划故障隔离域,监控发现异常时邮件、短信、电话告警等运维功能。
目前元核云已经帮助中国平安、中国人寿、华润集团、微众银行、招商金融等大型企业完成了分布式存储技术的引入和转型。拥有金融行业最大的Ceph存储案例,支撑了千亿级对象数据存储和上万个虚拟机运行,连续4年零故障稳定运营记录。
|