主题: SAS中国用户大会暨商业分析领袖峰会媒体分论坛
嘉宾: 潘永花,IDC高级研究经理
Paul Kent,SAS公司大数据研究与发展全球副总裁
吴辅世,SAS公司大中华区总裁
俞勇,平安银行风险管理部兼新资本协议办公室总经理
张磊,SAS公司大中华区首席顾问
时间: 2014年4月17日
地点: 北京悠唐皇冠假日酒店
分论坛现场
主持人: 各位媒体还有分析师的朋友,大家下午好!我是SAS市场部的负责人吕菁华,非常感谢大家今天来参加第二届SAS Forum,如果有早上来听会的朋友或者去年参加过我们大会的可能对SAS分析领袖峰会有一点了解。SAS Forum是由SAS公司举办的全球大会,会议从70年代已经开始举办,是由全球SAS的用户以及爱好者组成的。从去年SAS中国用户大会第一次登陆中国,今年是第二届,我们一直关注大数据领域,因为现在中国大数据的关注度也是非常高的。去年大会的主题是大数据、大分析、大机遇,今年我们把主题放在了大数据分析-知变与机遇。因为从去年的大数据概念到今年已经可以看到实实在在的价值落地,今年我们希望为大家挖掘更多的有价值的成功的案例以及新的应用。今天不单单是一个媒体的采访,我们希望跟媒体朋友、分析师朋友以及SAS全球及大中华区的高管和专家,包括我们的客户,一起坐下来讨论目前大家关注的大数据的方向,以及通过数据分析怎么能够驱动一些新的业务转型和新的应用。今天活动分为两个环节,共一个半小时,第一个环节是嘉宾对话。首先我介绍一下参与对话的嘉宾,嘉宾对话主持人是IDC高级研究经理潘永花女士,还有SAS 公司大数据研究与发展全球副总裁Paul Kent先生。SAS公司大中华区总裁吴辅世先生,以及平安银行风险管理部兼新资本协议办公室总经理俞勇先生。我们也请到了SAS大中华区的首席技术顾问张磊先生。
潘永花: 非常高兴今天下午由我来为大会主持嘉宾对话环节。根据IDC在数字宇宙相关的研究发现,数据宇宙从2013年到2020年整体的数据量,从全球来看会翻10倍,总的数据量从4.4万亿GB发展到44万亿GB这样的规模。数据量飞速的增长,不仅仅是一个量的变化,实际上数据的种类和速度,其实都在发生着非常巨大的变化。我们也都知道大数据有四个V这样的概念,我们既然面临多种多样数据的变化,最重要的一个V实际上是价值。我们有请SAS公司大数据研究与发展全球副总裁Paul Kent先生来跟大家分享一下他从全球的角度怎么看大数据的发展状况和未来的发展趋势,国外有没有一些比较好的案例,包括产品技术方面有没有一些比较新的进展。
SAS大数据研究与发展全球副总裁Paul Kent
Paul Kent: 最重要的一个趋势就是从原本的单机处理变成了多台电脑同时处理,这也让原本只有超级计算机能够运行的一些运算,很多行业都能够使用了,这就多亏了Hadoop这个开源的系统和开源的框架,让很多的IT都能够使用到新的想法和新的技术。Hadoop框架是从雅虎开始的,当时使用Hadoop必须要有java方面经验的工程师,他们必须是一些数据的科学家。但是现在就不一样了,Hadoop慢慢成长成为了一个分析的平台,能够让其他种类的软件也被融入和整合进来,运行Hadoop集群。现在开放了一些空间给其他的软件公司,包括像SAS这样的公司也可以参与到这个平台之中,把它变得更容易使用,包括界面友好。SAS在分析方面已经有40年的专业经验了,所以我们可以参与进来,让整个Hadoop框架和集群变得更好。
给大家一个案例的分析,跟信用卡有关。信用卡公司一般非常希望知道顾客消费的行为,购买东西的模式,支出的模式,包括想要什么,不想要什么,包括家庭状况的改变。比如说这个家庭马上要迎来一个孩子的降临,他们就可能会改变消费的模式,购买的东西也不一样了。过去我们只能储存3年的数据,也就是说,针对一个个体的5,000个数据储存时间周期是三年,进行横向纵向的比较,但是这些公司希望有10年的数据,这样经济周期不断的改变,有时好有时坏的情况下,他们能够记录下整个经济周期所有点关于顾客所有的数据,这样就比较全面,3年的数据是做不到的。
一些公司利用大数据的技术只是希望运算能够更快,但另外一些公司利用大数据建立了新的商业模式。比如说车辆保险公司,可以在车里面加上一些感应器,这些感应器能够监测一些数据,测出来司机是不是鲁莽的,还是开车非常注意安全的司机。根据他们不同的驾驶行为和方式,可以对安全的司机给予保费上的折扣。对于刹车很多或者加速很多的鲁莽的司机,保费就会更高。这些保险公司是非常成功的,他们可以从其他没有感应技术以根据驾驶习惯来设计保费的公司中拉来很多客户。车内感应器可以摄取非常多的信息,每秒都有很多信息流,不单单GPS可以定位你在哪儿,还有模型可以知道你是在市内的公路上行驶,还是在高速公路上行驶,这样可以更全面的掌握你到底是安全的司机还是非常危险的司机。
另外一个很有趣的故事是关于物联网的。现在无论是感应器还是网络都有很多信息存档,,也可以被用来打造新的商业模式。在日本一个做写字楼租赁的客户,他在每一个电梯里放一个计时器,记录下电梯停在某层的时间,从而计算每一层停的次数,如果某一层的停留次数多,说明这层的客户业务非常成功。很多时候我们觉得这些日志只能用于技术维修,实际上可以用在商业用途上。所以大数据不能仅看到其量大的特点,有时候只需要将其中一个类别的信息通过各种方式进行分析,就会产生新的商业模式。
对于SAS来说,我们最强大的地方就是集群环境下的运算和算法,这也是SAS的核心竞争力所在。我们现在在市场中处于领先地位,SAS是第一家把大量且复杂的精密运算应用到Hadoop集群。现在通过软件就能够很轻易的让很多人做到过去只有数据科学家才能做到的事情,比如建立很好的模型或对未来进行预测等。
这种演变不是一件非常容易的事。举个简单的例子,今天早上在那个大厅我在主讲台上讲到了,如何让在场的人通过运算得到全场年龄最小的人,传统的方法就是用串行计算机一个一个算。后来我把指令发给听众,进行类似并行计算的分组,每组得出一个结论,每组都进行数据处理,最后再综合的处理,整个过程就变得非常的简单。经过3年、4年,甚至5年的复杂运算,SAS研发中心工作人员实现了从原本的单机处理变成多机同时处理。这是我们非常引以为傲部分,但其中涉及的大量复杂而艰难的运算工作可想而知。
技术是一个很重要的引擎,能够处理更大集群的数据,更快地得出结果。但是我们也非常关注用户界面友好,令用户使用方便。为什么?因为你可以很快的得到一个报表,看问题就可以得到答案,看报表就能够得到结果。但如果报表生成的时间很长,就会失去兴趣进行业务方面的发掘了。我们通过把这些数据集群放在内存上,但因为有很多的电脑,相应有很多内存可以分布下去,这就使得很快产生报表。
潘永花: 我们听Paul Kent给大家分享了SAS怎么看全球大数据的技术发展方向和案例。我们也听到了几个关键词:Hadoop、大数据的可视化以及物联网。从中国的角度来看,IDC看到中国大数据技术和服务市场,未来5年,2013—2017年增长率会高达40%,到2017年市场规模能够达到8.5亿美金。我们也听一听SAS大中华区总裁吴总来给大家分享一下,从中国市场怎么看大数据发展现状以及哪些行业会走在大数据应用的前列。
SAS公司大中华区总裁吴辅世
吴辅世: 大家好,很高兴跟多媒体朋友,有些是老朋友,有些是新朋友,大家一起分享。SAS公司专注在大数据分析领域,主持人一开始也提到大数据会谈四个V,数量,变化,速度,最后一个V是跟SAS最相关的价值,即怎么运用分析技术产生业务价值。刚刚Paul谈到了Hadoop的新的趋势,国内很多企业也都做了相关研究。在2、3年前大家都是很保守的,现在包括电信业、零售业,甚至以前传统上对新的科技一步一步采用的金融业对Hadoop这个新的技术都做了很多试点、测试和研究。过去传统的主机和大型数据仓库平台做的工作现在也逐步地迁移到Hadoop当中去,这对SAS公司来讲代表了一个新的契机。过去我们和Teredata、甲骨文等公司有很多的合作,跟他们的结合,不管是直接访问他们的数据仓库,还是在库内做高速的分析,都有各种的软件功能让客户取得很好的成果。现在由于Hadoop这个新的科技的产生,会让客户有更快速的部署,更精简的投资,从而得到效益。
举个例子。前不久一个银行的客户,在做风险管理回归分析的测试,大约1亿条的记录,用我们的高性能分析技术在4台的PC服务器上,只要花3分钟时间就把分析做完了。过去如果没有这种高性能分析,如果是SAS软件要花2、3个小时才能解决,其他友商的软件也许算出不来结果,因为数据量太大,大数据一出现就会碰到瓶颈。所以这对于SAS公司来说是一个很大的契机。
早上我跟很多贵宾也分享了,我们每年把收入的25%,每收入4块钱中的1块钱投入在研发上,确保我们不断地推出最新最强性能的产品。所以大数据这一个新的商机,面对客户需要创新、转型方面需要的软件,SAS公司做好了充分的准备,通过我们的高性能分析、可视化分析,包括75%的大数据都是非结构化数据而不是传统的结构化数据,要做这样的分析很多大量的文本必须透过文本分析(Text Analytics),像这样的解决方案我们SAS公司有非常好的产品线配合客户的需求。这方面业务增长机会非常大,国内几个重要行业都有新的增长潜力。同时我们也与国内的集成商合作,希望集合大家的力量一起加大我们对市场的覆盖和服务的力度。
我刚刚讲到的测试我再补充下,除了速度以外,因为它用的是4台PC服务器,对用户来讲投资成本大概是三、四十万人民币硬件的设备,过去可能要10倍、20倍以上的硬件投资,才能够做出这么快速的大数据的处理分析。现在因为结合了SAS的高性能分析,我们就可以搭配非常精简具有效率的硬件平台环境,让客户享受到这种大数据分析的成果。整体来讲,我们对于大数据趋势的发展,对于中国市场的潜力,我们非常的有信心,也感觉到很兴奋。我们可以与国内的合作伙伴一起把服务做的更好,把这个市场发展的更大。
潘永花: 下面有请平安银行风险管理部的俞总,跟我们分享一下怎么看大数据在金融行业的应用,以及在风险管理方面有没有成功经验与大家分享。
平安银行风险管理部兼新资本协议办公室总经理俞勇
俞勇: 大数据我也是跟大家一样,接触不多,也是抱着学习的心态来的。以前跟媒体朋友接触做金融经济比较多,交了很多朋友,刚才看了一下单子,很多都是来自IT领域。借这个机会跟大家认识一下,介绍一下金融领域的情况,特别是大数据在金融领域的应用。同时尽可能结合平安集团和平安银行的情况谈一点个人的体会。
首先感谢SAS能够邀请我来分享。大数据大家都在说,说了3、4年,从2011年开始,今年有人说是大数据的关键之年元年,也有人说是体现大数据重要成果的元年。大家都在说,但大数据究竟是什么?我看了会议发的材料,有三个V,有人还总结了第四个V叫做价值。其实大数据big data就是一个概念,就是大的量,快的速度,还有多渠道、多种方式的数据。刚才Paul也说到了这个问题。我想说的是价值value,所以我很感谢吴总给我这个机会。
我昨天晚上跟一个老板聊天的时候,聊到大数据,他基本赞同我的观点,大数据主要就是分析,价值挖掘,这是它的关键精髓。当然对我们来说更重要的是,对SAS这样的分析公司来说,对我们这种应用领域的,不管是金融、通讯,还是零售、教育、医疗等行业来说也都是分析的工具。前面三个V都是比较专业的做硬件的或者做数据挖掘、数据收集,或者跟当地政府的监管有关系。比如Volume,什么数据能够收集,什么数据不能收集,不仅仅是你想做,而且是能不能做的问题。
举个例子,大数据在金融中的应用最明显的例子就是信用卡。信用卡不仅仅是反欺诈的问题,还有怎么利用大数据做精准营销。比如说张博士工作稳定,有张平安银行无限额的钻石白金卡,今天开会住在悠唐皇冠假日酒店,刷了1000块钱的单子。如果营销成功的话,我们可以分析后台的数据,收集张博士年龄、身份、收入、消费习惯以及他的家庭情况,他喜欢到哪儿去,北京周边,特别是朝阳门周边的情况,是不是要到外交部参观一下国家的部委,还是到雍和宫拜拜佛,还是到附近的咖啡店吃个饭。这个信息反馈到银行去以后,银行马上会给张博士发一个微信或短信,我们现在都是微信营销了。平安银行的壹钱包已经在用微信营销。
上一次我跟一家著名的IT厂商聊天,他说有一个产品,可以在5分钟之内能够送一条信息给张博士。比如张博士喜欢火锅,最近有一家很好的火锅店很适合他的口味,用我们的银行卡可以打折,火锅店开门时间,交通都安排好了,我们还可以帮你预定。这就是精准营销。可见大数据后面的数据量和工作是非常繁杂的,SAS完全可以起到作用,因为SAS是一个非常有力的工具。数据运营商也可以发挥作用,另外像分析工具,包括银行进行风险管理都可以运用。所以价值分析是大数据应用的关键。
现在金融的现状对于大数据应用是远远不够的,其中有监管的问题,有些个人数据是不能用来营销的,比如张博士的个人数据,因为他个人的数据并没有和平安银行签约,他的个人数据我们用来营销,这是不可以的,这是违法的。在美国,需要签privacy agreement。回到我前面所说的,大数据在金融领域的应用是非常复杂的,关键你怎么样把价值挖掘工具用好。我的理解是在金融领域大概有这么几个方面。第一是营销,这是很显然的,不管你是做银行、保险、证券、基金,你都需要大数据来发掘营销,这不仅仅是单纯的金融营销的问题,包括教育、医疗也同样需要。
第二是风险管理。因为这不光是反欺诈反洗钱的问题,风险管理方面,我们要对顾客行为贷前、贷中、贷后的分析,我们都需要大数据的支持。第三,更重要的是,我们需要大数据对我们的业务发展进行指导,什么业务可以做,什么业务不可以做,什么赚钱,什么不赚钱,什么时候可以开发新领域。三个领域做的很大,每个领域都可以细分出很多。就银行来说,比如零售的营销包括个贷、信用卡,对公的营销,线上的线下的,还有投行、机构金融等等。
讲到平安银行怎么利用大数据。我们把大数据放在非常重要的位置,大家知道平安银行的主要股东是中国平安集团,平安集团董事长马明哲是非常潮的人,搞IT的人都知道,他出去带着黑莓、苹果,用的都是微信、壹钱包。我们每年都有开门红,给领导拜年,领导会发红包给员工,我今年的钱包就是通过壹钱包拿到的。这在每个中国大公司中可行不可行我不知道,但金融机构我们是第一家。所以业界给他一个绰号叫做“外星人”。从这里可以看出我们对于IT,特别是新技术在金融领域的应用非常的重视。
平安银行在金融领域大数据挖掘有两个维度,一个是集团的维度,集团有一个首席创新官办公室,由屠总统领金融科技创新,就有大数据。平安有数科、金科、平安科技,三家共同合作做大数据。平安的财险客户都是非常好的客户,忠诚度非常高。各位媒体有开车的,可能有人买平安车险,平安车险是可以比较快的拿到理赔的,又是一种潮流身份的象征。这是在集团层面的做法。在技术应用方面怎么进行推进我们还在探索。
第二个层面是银行层面。大数据应用有这么几个方面,一是零售。我们希望能够通过大数据带来的技术,把零售营销的精准性、速度、范围进行扩大。二是对公营销方面。我们希望能够在风险管控上把客户即时的信息反馈过来,尽可能的收集到。因为对客户的信用进行判断就是一个数据分析的问题,数据问题则是中国金融行业最缺乏的。缺乏到什么程度?我看过一个报道,P2P类型的“人人贷”所属的宜信公司,不是一个金融机构。中国的金融机构是银监会批准牌照的,但它不是,只是一个工商局批准的企业,虽然可以贷款,但不能享受银行待遇,比如对客户的信用报告进行查询。也就是说他不能查客户的信用报告,只有银行可以查。它不能查客户的信用报告,我怎么判断要不要把5万块钱贷给张博士,就要想办法收集各种数据。如果有一个第三方,运用吴总说的SAS技术来收集和挖掘数据很好,这就有问题了数据收集不到,最后他们怎么办?他们就根据每个申请人的其他相关信息来判断他的违约率。他们还计划对这客户数据分析方法申请专利,违约率为大大降低。
小额贷的不良贷款率是远远高于金融机构的,不用看银监会的年报,银监会年报是银行的,都是国有、股份和城商行,国有银行平均不良贷款率是1到1.5%,股份制稍微低一点是0.8%,平安去年是0.89%。是比较好的,因为股份制新成立的,所以比较灵活,比较小,所以我们讲究效益,讲究顾客的质量。大行因为是历史积累下来的,所以一些不良贷款是正在处置的,同时还有国家的政策负担,所以不良贷款率会高一点。小银行,像城商行、农商行违约率可能会高一点,达到1.5—2%左右。宜信小额贷款或人人贷违约率应该是很高的,至少高于2%,因为他的客户群本来就是急需钱,但在银行贷不到款的客户群,客户群没有银行优质,同时他让客户支付的利率比较高,因为我能到银行贷到款比较便宜就不会找小额贷了,因为小额贷款的利息是一分、两分,有的是三分、四分,当然了基本都是短期贷款。
最后一个是风险管理。我在风险管理部门工作期间建了一个很大的数据库,把风险管理加进数据库,对数据库进行挖掘和分析。其中工具用的之一就是SAS,用SAS做了一些模型,判断用户的行为,将模型通过实验室进行验证是否合格,我们用的是SAS模型实验室软件。
潘永花: 下面请三位嘉宾分别用一句话总结一下怎么看大数据的未来。
Paul Kent: 在接下来的4至5年中,越来越多的公司会向科技领先的公司学习,比如google、alibaba、facebook、yahoo,学会如何在大的数据集群中运用自己的技术来发展业务。
吴辅世: 和大会主题结合,要洞察变化,你就会掌握到先机。就像国家领导人说我们到了改革转型的时候,对国家的经济社会如此,对于IT的从业者,对于企业的经营者来说,大数据带给我们的就是这样的机遇,是一个非常大的机会。
俞勇: Nobody knows。大数据的定义首先是比较模糊的。其次,大数据取决于很多因素。我看材料说到根据IDC统计,1/3的海量数据是有用的,其中只有千分之五是真正做了分析应用的。分析应用价值有多高,这取决于大数据的市场。我个人认为大数据目前来看也许是昙花一现,也许能够真正给我们带来一个变革性的时代,不仅仅是在应用方面,也许在技术方面能够促进科技的发展。
记者: 之前对一些大数据公司的采访中,我听到了一个有意思的说法,事实上在中国的现状来看,只有一些大型的公司和一些科技企业是可以用大数据来做分析和进行管理决策的,而一些做实业的企业他们是看到了这个趋势,但是从现状来看没有那么多的数据上,也没有必要上大数据系统,他们更需要的是云或者是大型服务器这种类型的服务,没有发展到可以应用大数据的程度。我想问一下Paul,据您了解,中国是不是到了可以大规模应用大数据的时期?
Paul Kent: 现在确实没有到大数据大规模采用部署的阶段,但是你说中小企业不能用或者不适用也是不完全对的,很多时候大数据能够带来一些新的商业模式。比如说在一个地方因为一个原因收集了一些数据,你把它放在一种新的模式下面就会产生新的价值,一组数据用两次不同的原因可以有新的价值,加入一些外部的资源或者信息进来,就可以通过数据建立决策或者产生一些新的数据产品,通过网络或者遥控等方法部署下去。这也是中小企业未来的商业机遇,也可以发掘出很多新想法。大数据技术可以应用于任何企业。
Hadoop集群不一定量非常巨大,有的时候只要5个服务器就够了,比如5台英特尔服务器,价格也不高,今年在北美的价格是1万美金一台,350GB的内存,14TB的存储量。有5台这样的电脑,就可以处理70TB的存储量,1.5TB内存。不用像google或雅虎一样有成百上千台服务器。很多客户刚起步的时候只用5到20台服务器,这对他们来说就已经非常的有用了,随着业务的增长可以慢慢的加,从20加到25个,或者加更贵的服务器更带来更高的容量。
吴辅世: 5台服务器就是5万美金,差不多6.2的汇率,30万人民币。三、四十万人民币对于小微企业来说真的不需要做什么分析,如果是中小企业投资三、四十万能够处理很大量的数据,从投资的角度来讲是绝对可以负担得起的。中国有一个特色,今天是小企业,明天可能是中企业,后天变成大企业。举个例子,国有银行、股份制银行,我们有五大行、12家股份制银行,但是下面一百多家城商行,过去城商行的资产规模是不可能排到全球一千大的银行规模,但是看他们的营收增长,过去几年自然的增长每年20%到30%的增长,并不是通过并购。所以很多银行已经跻身在全球五百大三百大之内。这就是为什么觉得中国的市场有很大的使命感,也很兴奋。今天看这些大的银行做的工作,明天可能就到了城商行或者第三、第四级的银行,都可以普及应用到。
三、四十万人民币,一般的银行过去做这么大量的数据分析,不管是做市场营销还是风险管理,可能建一个数据仓库的投入就是千万级的人民币。但是今天因为有了这些新的技术,因为结合了SAS的高性能分析,初始投资可以大幅度的降低,银行可以得到很大的效益。大数据市场当然会像刚才那位媒体朋友问到的,不可能一夜之间全面覆盖,但可以一步一步的来,它的扩散效应可以很快的发展,尤其是在中国的市场充满了潜力。即便是像刚才俞总提到的几个应用范围,精准营销前几年真的只有大的银行在谈,现在城商行,包括宁波银行、上海银行都在谈精准营销,都在跟进。风险管理以前做新资本协议合规只有五大行跟股份制银行,现在有十几二十家的城商行也在做,加强风险管理,参照大行的做法,一步一步的去强化他们的风险管理。这些都是在中国市场可以显现出来的有很好的成长潜力的方面。
记者:我有两个问题。第一个问题问一下俞总,现在谈的SAS广义的大数据应该包括结构化数据和非结构化数据,但一般的传统IT企业和传统的银行大的国营企业、民营企业,他们谈大数据的时候更多的是集中在数据仓库、传统的结构化数据上。对银行而言,在非结构化数据上你们有没有做一些研究工作,非结构化数据可以帮你们做什么事情。第二个问题问SAS这边,你们的产品我的理解是更多的发力在传统的结构化数据方面,包括大数据引擎。你们在非结构化数据方面做了哪些工作,可以给我们的用户,像俞总这样的银行提供哪些帮助。谢谢!
俞勇: 这个问题非常好。今天上午吴总开篇致辞就讲到了结构化和非结构化,通用汽车公司以前就是用结构化的数据来分析,比较简单,这个事大家一直在做,SAS也做的非常出色。现在非结构化数据分析更多一些,文档。我以前也是搞IT的,非结构化的数据分析难度是比较大的,要估计一个模型,假定它的linear问题非常容易,但non-linear问题估计方法没有统一的,因为每个方法都有它的缺点。
比如信用卡,我要判断给到张博士的信用卡是多少额度,叫申请卡。变量是很多的,年龄、家庭收入、职业,有没有汽车房产等资产,这些变量假定都跟他的额度是线性关系,我们才可以做回归,才可以测算额度。如果是非线性的关系,这就需要风险管理。还有他的年龄说不定跟他的信用卡额度并不是正相关的,或者超过40岁以上这个人的额度就很高,20岁以上额度非常低。这并不是一对一就比较难了。回到非结构化,在金融领域的应用,我感觉还是停留在非常初级的阶段,特别是在银行领域,保险和精算会好一点,金融领域比较少。
吴辅世: 这段时间张博士参与了一些银行的项目,金融领域是在初始的阶段,因为很多文本分析需求的存在,所以我们SAS刚好有一个很好的产品。早上我提到了制造业非常成功的案例,实际上金融业也开始有了应用。请张博士补充一下。
张磊: 对于非结构化数据的分析和挖掘,据我个人的了解,特别是在中国市场看到的情况来说。基本上从去年年终开始一直到今年,势头非常的猛。以前在国内做一些文本非结构化数据的分析和挖掘,基本上大家只停留在一些概念上,但从去年开始真的有客户开始要做这个项目,开始启动了一些文本挖掘的相关概念验证的项目。包括吴总谈到通用做文本的挖掘,针对汽车保修的文本记录,做文本的自动分类,对应到的汽车零部件,这都是我们已经上线成功的应用。除了汽车的行业,还有保险行业、银行业、招聘网站的公司,他们都用了文本挖掘分析的内容在做。据我现在接触的客户,有10个客户已经开始着手在做文本挖掘和分析了,上一些项目。
比如奥斯卡奖的获奖名单。来自微软研究院的一位专家在奖项公布之前就做了预测,那些奖项到底花落谁家,预测的准确性非常之高,14个奖项预测准了12项。他是怎么预测出来的?他是基于历史上的分析,用了很多非结构化数据的分析,包括影片的风格,奥斯卡专家的评判标准等。
另外一个非结构化应用比如流行病传染程度,这是政府监控度非常关注的,万一一个疾病暴发,它会流行到什么地步,有什么的发展趋势,这对政府的应对是非常重要的。以前是基于搜索引擎,比如Google的搜索引擎,根据搜索量的变化,搜索的关键字,由此分析可以知道现在流行感冒在哪个地区不断的蔓延,蔓延的速度是什么样的。回到商用的领域,保险也好、银行也好,其他相关的行业也好,一个最典型的应用场景是呼叫中心。客户会打电话咨询和投诉,会留下一堆的文本记录。我们前期给用户做了很多分析应用,要了解客户投诉的热点是什么,属于哪一个投诉分类。投诉的热点问题到底业务上应该怎么改善,跟我的哪些业务的举措有一定的关联性。所有的这些数据分析挖掘都是通过文本挖掘出来的。另外我还可以分析投诉的走势,未来我什么样的服务,什么样的投诉类别未来会怎么发展,都可以分析出来。这是内部的数据。
还有一部分数据是社交媒体。社交媒体发展非常猛,大家会在社交媒体微博、微信上发布我对每家银行或保险公司的看法和意见,实际上这也是企业通常会关注的,也就是舆情监控,用到的技术就是文本挖掘和分析技术。国际上做文本挖掘的厂商非常多,但在国内我们碰到的竞争对手并不是很多,因为竞争对手在中国有中文支持的障碍。因为文本挖掘的研发团队就在中国有研发中心,所以中文支持非常好。
记者:问一下平安银行的俞总,我们知道很多人觉得大数据的发展会对数据隐私,包括信息的泄漏产生很大的影响。一方面对于普通的公众来说有这种顾虑,另外一方面对于用户来说也会有这个顾虑,因为采用的越多隐私暴露的风险越大。您是如何看待这个问题的?我们采用大数据的时候,会不会有这样的顾虑?除此以外,数据挖掘的度,我们知道数据利用的越好或者挖掘的越深,度的把握上就有问题,可能会导致用户和公众对此有抵触。比如客人入住酒店,挖掘的过多反而会导致公众有抵触情绪。一方面观念、制度上有什么方式,另外技术角度有没有一些方法可以进行控制,让它变得可控。
俞勇: 作为银行来说,我们当然是严格按照银监会的规定做营销,做客户的信息收集的,特别是信用卡方面。这在国外是有非常成熟的做法,什么信息是公开的,什么信息是不可以公开的,美联储有规定,特别是银行以盈利为目的,他要跟客户签订privacy agreement。银行每次改信息收集的程序、信息收集范围和利用的程度都会发一个合同,当然他也比较聪明,如果你不回我就假定你同意了。不管是银行、保险,还是证券,如果想长期持续合规的发展,这些都是必须的,应该严格按照国家的有关规定来做。
第二个问题,关于利用过度,这完全是一个监管和技术问题。就像卖保险一样,客户不断的接到保险营销电话,这是不是可行。在美国不管是大数据营销还是其他营销,都有一个数据库,你如果打电话,把我的电话号码放进去,他就不向你营销了。至于说营销的频率,完全是各个商业营销部门的策略。如果营销总监觉得每个月给张博士发三次合适,还是每个星期发一次合适,这是他们来掌握的。还有技术方面的问题,数据究竟要挖掘到什么程度。挖掘过度会出现相反的结果,本来10个变量可以很好的解释消费者行为,15个变量说不定真正的行为就被模糊了,或者结果不那么准了。
张磊: 谈到营销过度的问题,我们的客户经常遇到这样的问题,到底营销做到多少比较合适。SAS这边我们提的概念是营销优化以及整合营销的概念。营销过度一般由两个原因导致,一是没有控制好一个度。比如昨天刚好做了一个营销,今天同样的营销又做了一次。这个时候我们主要是通过一些营销优化的约束条件,比如两次营销的间隔必须超过24小时,可以加这样强制性的因素,这样避免打扰到客户。二是我们经常在营销过程中给客户带来的一个困扰是因为营销发起部门没有一个统一的整合,没有命令中枢统一协调。比如银行信用卡中心可以发几个营销,零售部门发几个营销,呼叫中心发几个营销,可能卖的是同一个东西,客户收到了四遍营销信息,客户绝对会烦。怎么解决这个问题,我们这边所有的命令的发出必须通过营销的决策中心,叫做整合式的营销管理模式,集中式的管理,整合式的管理,通过营销优化的各种约束条件,保证对客户的打扰达到最小,同时也要实现我们的营销效果。
记者:我有两个问题。各位讲话中都提到了互联网企业,从去年下半年开始互联网金融一下子呈现爆发式的增长,相关的风险问题也引起了各方面的关注。这些互联网金融业务给传统的银行风险的管理带来了什么样新的挑战?银行基于互联网金融的风险管理有什么样的特点?问一下吴总,SaaS帮助银行应对互联网金融风险的时候有哪些针对性的解决方案?
俞勇: 互联网金融跟传统的网上银行、电子银行有什么差别,跟电子商务有什么差别,还是一个综合体。我觉得互联网金融有三块,一块是传统的网上银行,第二块是传统的电商,第三块是电商和传统金融的结合。我们现状是把线下的东西拿到线上做,还是说把线下的东西拿到线上来营销,这是不是创新,这一块国家的监管政策非常的不明确。互联网金融不仅仅是在欧洲、美国,在全世界监管方面都是特别大的问题,难度非常大。就中国的监管来说,最近刚刚明确由人民银行牵头来做互联网金融的监管,银监会配合,但怎么配合?一个是不同的监管机构,还有涉及到具体的问题怎么办。因为互联网金融不是一个概念。
前一阵子如果你关注金融领域,中信银行和阿里巴巴、腾讯设了一个虚拟信用卡,后来被取消了,大家分析原来是人民银行下了一个文,关于停止虚拟信用卡的通知。可以看出监管难度有多大,不管这是不是一个创新,怎么监管大家不知道,所以暂停了。有人分析是银联的利益问题造成的,但我个人认为更重要的是风险问题。
我们发一张信用卡要面签、面谈、面见,我要看你的身份证,跟你本人对照,你要签字,不能通过网上就签了,传真过来或者网上视频,这是不行的,监管规定是不允许的,这涉及到资金安全。因为信用卡是一种支付方式,你如果用信用卡洗钱,这对第三方支付会造成扰乱。一旦你的身份和银行账号连起来以后,你就可以用银行帐号做很多事,如果这是不真实的,是非常危险的。
中国互联网金融的发展五花八门,前段时间民生电子商务注册是很有前途的一个创新,再看其他银行的,建行网上银行、网上商城和创新做的都非常好。和大数据一样,未来发展不确定。美国曾经有过一段非常热闹的互联网金融,现在基本上冷静下来了,不管是网上商城也好,还是直销银行,还是其他的创新,包括P2P的网上金融。虽然说是不确定的,但是大家希望走的越来越好,需要监管支持,政策有待确定。
风险管控网上金融确实非常难,因为你不知道哪个该管哪个不该管,比如虚拟信用卡是不是有风险,中信银行认为没有风险所以他要做,但一切要在合规的前提下管理风险,当然内部的创新还是必须的。合规、审慎,同时能够给银行带来收益,这三个原则要掌握。
分析师:移动端分析在企业级有什么应用?如何帮助客户发现业务机会与制定移动战略?
Paul Kent: 电信运营商会收集位置信息,现在也有一些手机上的应用程序,可以定位所在地点,并询问你允不允许访问,分享位置信息后,运营商可以根据你现在所在的位置预测你周围的地方,估计你要到达的地点。
还有一个模型是下一代的电话可能会装上感应器,测你的血压、心跳,分析今天的身体情况跟昨天比怎么样。跟你的同龄群体相比你的身体怎么样,会监测你的健康进行分析。
未来,也可以在云上进行分析。很多应用都是在个人习惯方面。
比如分享骑自行车路线。你是周二骑的,他是周三骑的,两天虽然不同,但某一段是可比的。它会比较你和朋友在同一段里程中各自的表现是什么样的,应用程序会为你出一份报告。当它可以为你提供一份乐趣的时候,用户就很愿意把自己的隐私交出去。在分享个人信息的同时,你也可以获得很多信息。
分析师:第二个问题问的是在SAS方面有没有类似的解决方案。
Paul Kent: 我们正在进行这方面的研发,基本的技术部署已经拥有了。比如保险公司在车里面装了一些感应器,装的时候有些是水平的,有些是垂直的,有些是倾斜的,采集的数据就很难进行整合,我们现在的技术就能够把这些数据整合在XYZ统一的坐标系里,使数据具有了可比性。把感应器得到的数据拿过来进行分析,也可以整合到同一个坐标系里,以方便进行数据的对比和分析。我们现在还没有一个这样完整的应用,但已经有了一些基础的模块,可以让客户自己去组建。
分析师:平安集团本身是有自己相当强的科技和IT团队,我想听一听您是如何更好的把内部开发研发的团队和外部的像SAS这样的公司更好的合作。毕竟我们有各种各样客户的需求,我们是如何与第三方商业分析的公司进行合作的,来提高我们客户的体验?
俞勇: 实际上这是两个方面,对于金融机构来说,特别是像我们这样的中小银行,在人才、技术方面跟大行相比都有很大的差距,这就是为什么大家发现在股份制银行工作压力很大,人均产出肯定要比大行高,这不管是前台、中台、后台,而是一种普遍的现象。出现这种情况之后,从风险来说主要是两个方面,一是我们尽可能的招高素质的人,愿意加班加点,愿意承担责任,这一块我们已经有了长足的进展。平安银行的目标是3万人4万亿资产。风险管理部最近招了7个海归,都是高素质的人才。同时内部也进行人员的培训,下个星期我们会请SAS给我们做一个SAS的建模技术培训和软件。
因为我们比较小,比较讲究效益,比较讲究投入与产出,所以有了一个大的项目我们就会请著名的咨询公司,像SAS等协助。这是一个普通的现象,中小银行来做一些大的项目,因为他们的专业技术、能力和产品的创新性,在某一阶段他们可以弥补我们的不足,可以跟我们一起成长。但这也要辩证的看,一方面我们希望所有的东西都自己做,但我们做不了。另外一方面我们希望外部的公司来做,他们的知识能够转移给我们,让我们自己可以独立的完成这件事。比如,SAS要能够培养出一到两个人可以更新我们的实验室,软件方式方法要交给我们的人去用。
分析师:我有一个问题问Paul Kent先生。如果我们看到一些行业,他的已有的数据积累量并不是很丰富,但是增长速度非常快。在这样的情况下,我们用什么样的方法能够做出比较科学的预测分析。我想问这个问题是因为我之前在时光网上选电影的时候看到这样的报道,说国内电影市场目前增速非常快,基本上每年的增速大概是2到3倍,甚至更高,但是现在很多院线在新的地方开一个新的电影院,影院的经理很困扰的一个问题是我需要把第一天影院的排片尽可能的科学。比如说不同的影片该排几个档次,安排在不同的厅,因为他在新的地方开,没有很多的用户和运营经验的积累。如果排错的话,可能一天时间就会损失几百万,甚至更多的金钱。面对这样的情况,类似这样的行业,SAS会用什么样的方法做出非常科学的预测分析。
Paul Kent: 我不确定SAS是否有针对新建影院的解决方案。但您可以利用我们已有的技术,像零售业的经验和技术,我们可以发掘一个地方的人口是不是在暴涨,进行预测性的建模,或者可以异地的对比,相似的地点、相似的人口进行异地对比也是非常有用的。
我想讲一下优化,不像预测提到那么多,但它也非常有用,尤其是在数字营销领域也是非常有用的,你可以有很多种方法去跟客户沟通。比如发短信、发email,给他们免费的电影券,你怎么决定,选择太多的时候人脑就不一定能找最合适的方法,可以通过电脑进行计算,保证利益最大化。数字营销优化技术也是SAS拥有的,这是很多市场营销人都非常感兴趣的,银行和零售是成功的应用了这些技术。
分析师:如果SAS这边有兴趣,可以关注一下电影这个行业,我认为空间还是很大的。
吴辅世: 我们没有帮影院的用户做过选址的分析,但像银行的ATM,自动柜员机应该部署在哪里,哪个地段,根据人流和客户,触类旁通,我们可以运用到我们的技术帮用户做到选址的分析。
记者:我正在做的稿子是跟车联网相关的,车联网也是中国政府正在主推的项目,SAS在大数据分析帮助北京治理拥堵方面有没有案例?
吴辅世: 我们在国内还没有做过,但国外有很多大的城市做过数字化城市的方案。环境污染的问题、堵车的问题跟金融市场一样,政府市场占了我们非常大的份额。
张磊: 关于车联网我稍微补充一下。去年我们公司跟一个第三方机构合作,出了一本白皮书,所谓大数据在大企业的应用。您刚刚提到的车联网我们在美国有一个应用,即美国的UPS,UPS是很大的快递公司,全球大概是820万的用户,每天在路上的货物是1700万件,每天的客户查询大概3000多万笔。他在全球大概是46000台的运货车,每台车上都装了传感器,汽车在什么地方,什么速度,什么方向,路线怎么走,全都传回总部,他要时时刻刻知道货物在什么地方。这还不够,我们帮助他们做了一个系统ORION(路上导航整合优化系统)。我现在知道你的车去了哪里,我知道你的货要送往哪里,但是SAS帮他做的一个优化是希望每台车每个司机每天能够少开一英里,对UPS来说一年可以省下3000万美元。这是基于车联网远程传感器的技术,我们只有收集到这些信息,再结合SaaS预报和优化的技术才能做得到,这是我们已经成功的案例。
回到北京治堵的问题,你如果能够拿到所有在路上跑的车子的信息,拿到监控探头的信息,拿到人流量增长的信息,包括根据历史的数据做的一些预报,车流的疏导,甚至预报出来什么时间、什么地方会出现堵塞的情况,都可以做出相应的预测。
记者:我们未来有没有这方面的计划,会涉足这个领域?
张磊: 在国外,包括交通也好,运输也好,甚至于其他的行业都有相应的成功经验。至于在国内跟政府之间的合作,我相信吴总会统一来协调,看看我们怎么样配合政府,把我们的成功经验分享应用起来。
Paul Kent: 现在有一个趋势,政府最好不要自己把报表或者报告产生出来,他可以把很多原始的数据放在网上,能够让公民自己看到,获得这些数据。他们就可以用一些软件进行自选功能,通过像SAS这样的软件进行自选。比如他们只想知道周一的交通情况会是怎么样的,或者想知道西北部的交通情况,他们就可以自己去选,可以用一些非常好的像SaaS这样的工具。我今天早上讲到一个例子,是医疗行业的,就是政府把很多的原始数据放在网上,让公民通过像SaaS这样可视化的软件自己得到想要的结果,这是一个非常好的想法。
|