【硅谷网综合讯】 北京时间2018年4月26日 - 27日,第十届全球移动互联网大会(GMIC北京2018)在北京召开。此次大会以 “AI 生外物”为主题,人工智能界的泰斗级人物Michael I. Jordan、Yann LeCun等悉数到会。知乎合伙人、高级副总裁李大海受邀参与Gmic主会场全球人工智能领袖峰会,与全球顶尖的科技企业领军人物及人工智能科学家共话AI前沿趋势和未来发展。
峰会上,李大海发表主题演讲 “AI 算法与人文价值”。他表示,如果把知乎看成一座拥有一亿四千万居民和游客的超级城市,知乎的社区规范就是让城市正常运转的法律法规。知乎平台的管理不仅可以通过产品和运营手段来人工完成, AI 也有能力参与其中,让社区规范被更加智能高效地执行,让互联网讨论礼仪被更好地普及,这正是AI 所能够带来的人文价值。
在应用 AI 上,知乎有两大优势。首先,知乎积累了非常好的中文语料库。“其实AI在NLP(硅谷网注释:神经语言程序学Neuro-Linguistic Programming缩写)领域是不如像图片等等这样一些领域的成果这么出色的,但是很幸运的是知乎积累了一个非常高质量的中文语料库。” 李大海在演讲时提到。知乎上不仅有大量优质问题和回答文本,同时,用户在知乎上的行为也是非常重要的数据。用户在生产和消费内容的同时,他们还会一同参与社区建设,比如,用户对回答的赞同和反对,对内容的举报,对问题和话题进行公共编辑等等,通过这些有监督的语料,知乎对于语言的理解可以达到一个更高的层次。
此外,知乎还积累了非常丰富的社区管理经验。在摸索社区规范的过程中深刻理解了不同用户的不同诉求,让社区规范适配复杂多样的场景。这些经验亦为知乎使用 AI 算法来进行氛围治理打下了坚实的基础。
李大海介绍,知乎目前通过算法机器人瓦力实时高效处理多个场景:答非所问,歧视、恶意贴标签、辱骂等各种不友善行为等,全力减少低质和无关内容对读者的干扰,降低网络暴力,为用户提供人文关怀。目前,瓦力的准确率在部分场景中最高能达到 99.13%。后续,知乎会在保证准确率的基础上,不断提升瓦力的覆盖范围。
从技术的角度而言,瓦力机器人是怎么做的呢?李大海以答非所问作为例子做了简单讲解,瓦力机器人最早解决这个问题的时候采用的是随机森林的模型。什么是随机森林呢?简单的来讲,随机森林就是用随机的机制去产生很多分类数组成的森林。它的分类数就是把这个样本放到每个数里去分类。
此外,知乎还尝试在语义分析的基础上,进行情感分析的前沿探索。知乎通过对庞大且高质量用户行为数据的分析、学习,对语义和用户关系这两方面进行更深层次的理解和建模,从而有机会突破“识别反讽”这个一直困扰情感分析领域的前沿话题。这将对中文互联网乃至世界互联网的讨论环境产生促进作用。
演讲最后,李大海还首次对外公布了知乎智能社区概念。在垃圾泛滥的互联网信息海洋中,真正有价值的信息是绝对的稀缺品。知乎鼓励每个人都来分享知识、将每个人的知识都聚集起来,并为人所用。技术一直在帮知乎实现更精准高效的连接,现在, AI 已经深度参到社区内容分享和流通的每一个环节,让对更多人有价值的问题被提出,让最适合回答的用户被邀请,让更多分享见解经验的欲望被激励,让更多专业认真的知识被推荐,让更多人的好奇心被满足,让 1 亿 4000 万注册用户甚至数亿网民连接到一起,这是知乎正在努力,并且初步成型的知乎智能社区。
已公开的资料显示, 截止 2018 年3月,知乎已经拥有 1.4 亿注册用户、3400 万日活跃用户,平台上累计提问量高达 2300 万,回答量则已经突破一亿。知乎相信,在不远的未来,每个人来到知乎,他能快速的看到他感兴趣的人和内容,他的疑问可以被极速的送达到那群有意愿和能力回答的人,他也会快速的遇到那个让他愿意拍案的好问题,分享那些只有他最懂的信息,收获到最令他满足和愉悦的认同,与他希望遇到的人产生有价值的交流、讨论,甚至争执。这一切会是这个时代的思考和总结。知乎会以前所未有的效率创造思维的连接,让每个个体的思考和经验,极速被分享,被筛选,被总结,被转化成为这个时代的知识。而知识的生产方式和迭代效率,会因为这样的连接发生质的改变。
|