2017年9月21日-22日,在北京万豪酒店,第三届RTC 2017实时互联网大会盛大召开。从第一天RTC技术大牛的议题分享中不难看出,经过一年的高速发展,RTC技术取得了诸多创造性突破,在通话连通率、端到端延迟、通话质量实时监测以及服务的高可用性等方面有着极大的提升。惠及全球超过10万开发者,覆盖了10亿+终端,每天在平台上产生的流量超过亿级分钟。
浏览器终端融合 RTC标准统一在即
大会进入第二天,作为出席此次峰会重量级嘉宾之一,Daniel C. Burnett有着WebRTC标准之父的美誉,在其《浏览器终端融合 RTC标准统一在即》的主题演讲中表示,在WebRTC标准起草初期,人们非常担心应用插件的风险,因为当时缺少标准使麦克风和摄像头接入进来。但随着Web平台Html5的崛起,它同样可以作为一个API来进行编程,仅靠Native是不行的,WebRTC标准就这样诞生了。
WebRTC标准之父 IETF的参与者 Daniel C. Burnett
随后,Daniel又分享了WebRTC与各大浏览器的支持状况,Chrome和Firefox两大浏览器已经互操作多年,随着WebRTC与ORTC之间的共识,在标准层面取得了非常大的进展。虽然微软坦言,IE永远不会支持WebRTC,但其Edge对WebRTC的支持是比较大的,并且微软的工程师和标准专家在通信标准制定中也参与了两年之久。
Daniel还表示,UC和360浏览器也会WebRTC,但具体支持的程度目前还不是太了解。而苹果在其Safari和iOS11中均会支持WebRTC协议,Daniel坦言,Safari是否支持并不重要,重要的是iOS,这也是Daniel最为看重。
而随着事态的发展,Web平台全部使用WebRTC标准将在未来达成,并且Daniel预测,随着WebRTC协议使用率的大幅提升,在2018和2019将是真正的WebRTC之年!
Slack视频会议服务的搭建与扩展
作为企业协同工具的代表,Slack可谓是后起之秀。截至2014年底,Slack已经整合了电子邮件、短信、Google Drives、Twitter、Trello、Asana、GitHub等65种工具和服务,能够将各种碎片化的企业沟通和协作集中到一起。
Slack视频组工程师
来自Slack视频组的工程师,发表了《Slack视频会议服务的搭建与扩展》的主题演讲。主要分为两个方面进行,首先分享了Slack的基础架构,进而阐述了应用了何种技术以及在部署和维护过程中遇到了哪些挑战。
相较于RTC服务,Slack拥有一个应用方面的工具,该工具基于PC端实现,当然也有移动方面的考虑,音频用apa和其他编码实现。
在浏览器方面的支持已经没有问题,如在Chrome搜索中必须得到“允许”才能去捕获,其安全角度看这样处理是没问题的,涉及到内容方面是需要进行确认的。而Slack使用Electron后则优化了这一问题,当用户再次捕捉屏幕时,则可以直接进行,免去了安全防范,截屏操作更便利。
另外,为更多的服务全球更多客户,Slack在全球不同区域部署了呼叫服务器,当用户发起呼叫时,仅需最近的服务器提供服务即可,然后用AWS和Google Call进行连接,使得用户呼叫更容易。
多主机呼叫机制同样给客户提供极大的便利,Slack希望提升速度,使用户在不同的服务器都可使用,速度和编码更快。采用Turn服务器将流量连接到其他服务器,或通过备份的方式,与其他协议互通,通过这样的方式来提升用户的体验。
基于Jitsi的自适应视频会议架构设计
Emil Ivov是来自Atlassian的首席视频架构师,他为我们带来的是《基于Jitsi的自适应视频会议架构设计》的主题演讲。Emil表示,Jitsi是Atlassian的一款开源产品,不仅可以将它作为视频路由器,还可以在APP中增加更多有意思的东西。
Atlassian 首席视频架构师 Emil Ivov
将Jitsi嵌入到APP中的做法非常容易,Emil表示,几行java代码就能搞定。并在会上为大家做了展示,主要分为三个步骤:首先,在欢迎界面进行简单配置,如放入会议室名称、加入按钮,进而实现视频会议体验;其次,将WebRTC标准协议嵌入其中,并确认开始与结束点;最后,做一个许可描述,告诉人们在什么情况下是许可的,这个iOS的APP便实现了。
此外,Emil还表示,Atlassian在解决流媒体拥堵问题时,宽带和网络都会限制流媒体,当一个浏览器给另外一个浏览器发送数据包时,如果出现拥塞,有些包就会丢掉。而如果在这两者之间增添一个路由器,便可实现在不同宽带下进行调整,以解决拥堵问题。
直播的变革:全球化与商业化
Twitch是一款面向视频游戏的实时流媒体视频平台,于2011年在旧金山创立,在2014年被亚马逊以11亿美元收购。Jeff Li表示,Twitch是世界上最大的在线游戏直播平台,在美国互联网峰值时刻,Twitch的流量占比甚至超过了Facebook。
Twitch商业化产品总监 Jeff Li
eff Li坦言,之所有今天会讲《直播的变革:全球化与商业化》这个主题,他认为,这其中拥有巨大的商业机会。Twitch希望将主播、玩家、平台、游戏开发商以及第三方应用做深度融合,打造生态圈,进而创造新的商业价值。
随后,Jeff Li也明确了Twitch的愿景,即直播平台是帮忙主播分享的公司,是帮助游戏厂商连接消费者的公司,也是帮助用户探索需求的地方。Twitch的目标是,促使技术、数据和行业生态的结合,并创造新的商业机会。
新一代音频编解码探索
自2008年起,高泽华开始写博客,而其关键点在于“工作只是我执行兴趣的实验”,深耕编解码和抗丢包技术10年。在这些年编解码的学习过程中,高泽华认为,编解码器有两类应用:第一类是面向文件直播,第二类是相面于网络通信,虽然同为编解码器,但对于不同的应用,工具的选择是完全不一样的。
声网Agora.io 首席音频工匠 高泽华
在当今网络宽带足够宽的情况下,研究抗丢包是不是已经过时了?对此,高泽华认为,丢包的定义应该是“没有按时到达的包都叫丢包”,它不仅来自于网络,也来自终端,系统如果没有及时响应也应该叫“丢包”。
丢包一般发生在哪些地方?高泽华表示,如果将通讯分为三段的话:第一段,云端,即服务器到服务器;第二段是服务器到终端,如在人非常多的会场,3G/4G网络连接不通的状况;第三段是客户端到本身,在4G和WiFi普及如此之高的情况下,通信运营商没有办法舍弃电路交换而完全使用包交换,因此在2020年以前,丢包场景是普遍存在的。
为了应对这些问题,声网在过去两年中研发了新的编解码器,即Agora SoLo™,它是全球首个基于互联网的音频编解码,已申请国际专利。在视频编解码方面,其多人视频智能自适应技术,通过大数据分析和算法,对视频传输各项指标进行智能的适配优化,保证传输。
此外,声网SDK能覆盖全终端全球区域和不同规模的业务,即将发布的基于WebRTC的Web SDK,除了支持所有主流浏览器外,还能更好地实现Web与Native互通。
静听你我——深度学习开启无噪音通话时代
与第一天大会相同,下午同样包含三场极具针对性的技术专场。作为RTC场景应用技术的第一位分享嘉宾,来自大象声科CEO苗健彰,为我们带来了《静听你我–深度学习开启无噪音通话时代》的主题演讲。
苗健彰表示,噪音已经严重影响了人们的日常交流,尤其在AI技术高速发展的今天,绝大多数语音交互的设备在远场性能上都存在比较大的问题,而大象声科就是为解决这样的问题而生的。大象声科将深度学习技术与计算听觉场景分析技术相结合,首次将深度学习应用于语音增强,大幅度提高了单声道处理的场景下,对于语音可懂度的提升。
从通信到交互——AI时代语音技术的变迁与挑战
相非自来小米智能云,他为我们带来的是《从通信到交互——AI时代语音技术的变迁与挑战》的主题演讲。相非表示,小米更多是在智能硬件行业不断利用新技术去开拓用户体验,并带给大家更好的产品体验。
相非此次分享主要分为四个层面,首先,介绍了语音通信的发展历史;其次,在最火热的AI时代下,远场语音的变化对我们带来哪些挑战;再次,在做产品时,如何将远场语音能力建立起来;最后,关于产品方面的一些思考。
网页端实时音视频服务系统架构与实践
声网Agora.io首席WebRTC架构师陈功,发表了《网页端实时音视频服务系统架构与实践》的主题演讲。陈功首先分享了实时通信发展的几个趋势,即高清互联、多终端互动、随时随地沟通等。而Web端实时通信主要应用在直播、在线教育、视频会议、远程医疗和企业协作等较为典型的应用场景。
而WebRTC技术带来了免安装插件的便利,因此受到广大开发者的关注。当前,WebRTC技术正处于一个最好的时代,为了让更多开发者了解WebRTC,陈功现场为开发者介绍了几种典型的WebRTC系统架构,这对于搭建Dome系统起到非常大的帮助。
直播海外市场破冰
在后直播技术专场,UP直播CTO刘明灵,发表了《直播海外市场破冰》的主题演讲。刘明灵表示,去年是直播行业元年,UP直播有幸赶上了这样的风口,但国内直播市场已经处于“水深火热”之中,因此UP直播直接将目标放到海外市场。
同时,刘明灵也表示,因为公司本身并没有关于音视频方面的技术积累,为了快速切入市场,最佳的方案就是借助第三方的力量,如UP直播第一个版本仅仅一个月便上线了。随后,刘明灵又分享了UP直播在应对海外参差不齐的网络状况的处理,以及主播、服务中心部署和支付等方面的分享。
教育直播场景下的AI化
好未来CTO黄琰,发表了《教育直播场景下的AI化》的主题演讲。黄琰表示,自2007年开始到2017年,经过10年的发展,直播技术和产业也是浮浮沉沉好几轮,直到今日,直播再次迎来一个新的春天。
黄琰坦言,教育市场前景广阔,预计到2019年在线教育市场的交易额将达到3700亿元。随后,黄琰分享了直播在教育行业的四大显著特点:首先,但用户UP值特别高;其次,时间机会成本高;再次,打破了地域限制;最后,最大化教师资源。正是源于这些特点,直播对教育也提出了更加苛刻的要求,即高清晰度、多互动、低延迟等等。因此,更需要一些新技术来实现,而AI显然是当前一大热门技术,未来与教育市场将有更多融合的机会。
基于SD-RTN的实时全息影像互动
来自ARHT Media的亚太地区副总裁Lincoln,为大家带来了一个非常炫酷的话题,《基于SD-RTN的实时全息影像互动》的主题分享。Lincoln表示,ARHT Media创造了数字人体全息影像,并且他们是实时互动的,观众可以和全息影像互动,可以让演员、讲者、明星以及政治家到世界任何一个地方来与观众进行互动。
全球实时互联网质量现状与实践
声网Agora.io首席音视频架构师孙雨润,发表了《全球实时互联网质量现状与实践》的主题演讲。孙雨润表示,当前实时互联网质量还不够现实,他举例来说,虽然微信日均已达几亿分钟的通话量,但如果有一个商业行为或者紧急重要的事情,你会打开微信呼叫还是直接用手机?选择电话的用户肯定要占大很大的比例,而这就是由于实时互联网质量还不够现实造成的。
同时,孙雨润还表示,衡量是否属于优质传输需要三大指标,即丢包、抖动和延迟。这三个指标是相互依赖的,如对一个实时通信系统要求在150毫秒内达到,超过150毫秒就认为是丢包,反过来又形成丢包,每个包的延迟不同就是抖动,因此丢包、抖动、延迟并不是三个独立的概念,是相辅相成的,任何一个因素都会对整个系统带来影响。而声网在全球部署的虚拟实时通信网SD-RTN™在全球有近100个数据节点,支持为全球开发者提供实时音视频传输。经SD-RTN™传输的质量比原生P2P传输的质量提升了10倍以上。
RTC在大规模直播场景下的技术分析
沪江CCtalk云CTO杨继珩,发表了《RTC在大规模直播场景下的技术分析》的主题演讲。杨继珩表示,RTC在一对一或一对多通话已经是非常成熟的服务了,而今天要谈的场景是一对几千、一对几万下,RTC服务到底靠不靠谱?答案肯定是没问题的!
一对成千上万的需求场景主要出现在大课上,CCtalk的应用场景支持成千上万的用户一同学习。杨继珩表示,WebRTC当前还没有达到可商用的阶段,而RTC同样面临一些问题,而通过优化反馈渠道、做多条数据流、让中间服务器有SVC等可以实现RTC更好的适应场景来去做服务。
媒体传输的质量评估
Callstats.io CEO Varun Singh,发表了《媒体传输的质量评估》的主题演讲。Varun表示,Callstats.io会收集来自于网络电话或者网络视频会议的信息,以此来了解用户体验,当用户在打完视频电话后会收集用户的反馈,如果体验特别差可能用户都不愿意给你反馈,但给了反馈就需要特别重视,将其中涉及的问题尽早解决,以更好的提升服务质量。
WebRTC端到端的系统性自动测试
CoSMo Software Consulting 主席 Alex Gouaillard,表发了《WebRTC端到端的系统性自动测试》的主题演讲。Alex表示,当前WebRTC的开发者有很多工具可以测试网页,测试浏览器是不是实施了具体的API,并且了解每个浏览器的表现和行为是否一致,可称为“兼容性测试”。
同时,Alex也表示有更多工具可以使测试变得更加完善,WebDriver便是其中之一,它可以与Browsers进行互动,WebDriver做浏览器测试非常好,我们把它叫”Browsers”,每个Browsers都有驱动,不用任何人为干预就开始测试过程。
基于大数据平台——实时质量监控平台的架构设计
声网Agora.io 首席数据架构师何丰,发表了《基于大数据平台——实时质量监控平台的架构设计》的主题演讲。何丰表示,关于声网可以从几个关键字进行阐述——全球、实时、高质量、音视频通信、服务,这其中高质量是声网特别看重的。
而通过声网一系列优化之后,所有的数据从收集、发出到展示,在10秒内即可实现。并且可以全方位还原过程,如用户何时发起的会话、接入了哪个服务器、服务器质量如何,编解码速度好不好等数据都会收集起来。因此,所有通话都是可以回溯的,如果用户申报通话质量问题,声网可以给出结论,至少大部分可以通过数据诊断得出。
小结
为期两天的实时互联网大会落下帷幕,相信此次参会的开发者朋友或多或少都有自己的心得体会,而带给笔者最大的感受还是实时通信行业的发展速度,并且伴随RTC技术的全面落地,又给行业带来的勃勃生机。未来,实时互联网行业又将有怎样的发展趋势及变革,让我们相约明年的RTC大会,再会!我们明年见!
|