2018年7月,科大讯飞发布了一款小程序应用——讯飞留声(微信搜索:讯飞留声Lite)。这是一款免费定制个人音库的小程序,用户根据引导录制10句话样本,10分钟左右的时间,其深度学习模型就可以训练出用户的完整音库,从而能将任意文本转换为用户的声音,且做到音色高保真还原,朗读的语气、语调、情感也堪比真人。
讯飞留声是目前全球范围内,用户能体验到的最便捷、最成熟的个人音库定制产品。相比之下,微软和谷歌的同类型产品还停留在概念宣贯或内测的阶段,而国内的人工智能公司更难望其项背。虽然讯飞留声现阶段还是一个测试版本,但随着产品迭代,功能会逐步完善,应用闭环生态也会慢慢成型。未来还有很多想象空间,但眼下,讯飞留声的意义仿佛是让一个只会模仿大人说话的小孩顿开心智,开启自己的个性表达。
几乎所有人都认为,第三次AI浪潮将带领我们进入一个真正的人工智能世界。但人工智能并非新物种,它曾经被冷落甚至夭折。这一次,它若能茁壮成长、健步如飞,一定离不开师者对其传道授业解惑,科大讯飞正是这一角色。
科大讯飞从成立之初就坚定了智能语音这一领域,19年坚持源头创新。智能语音对于AI行业来说,最直观的理解是当机器设备“能听会说”时,才具备智能的可能性。好比小孩子只有能听懂指令,能表达想法才能开阔思维。讯飞在“教导”尚年幼的AI能听会说方面的建树也是有目共睹的。
经过8年的成长,截至2018年6月,讯飞输入法用户数突破6亿,语音识别率提升至98%,不仅做到一分钟识别400字,还支持多语种实时语音翻译、超长语音输入、耳语输入、离线语音输入、方言输入(目前讯飞输入法支持23种方言,其中粤语、四川话、东北话等识别率均已超过90%)。此外,语音修改可以在使用语音输入的过程中通过自然语言说出指令,进行修改、添增、删除文字等操作。通过讯飞开放平台将语音识别的技术赋予行业伙伴,“能听”为人工智能大步向前迈进打下基础。
“会说”方面,科大讯飞被公认为全世界“最会说”的人工智能“嘴巴”。前不久结束的Blizzard Challenge 2018比赛中,科大讯飞报送的参赛系统摘得10个测评打分项目中的9项第一,成为“最全能的冠军”(参赛者如果只获得某一两个单项的第一并不足谓冠军)。这也是讯飞连续13年蝉联该大赛冠军。从2005年比赛诞生以来,尚无第二家机构可以拿下13连冠,也没有一家可以超越科大讯飞拥有的测评项目第一的数量。
语音合成涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,实现将文字信息转化为可听的声音信息。Blizzard Challenge的评测项目共有4个,分别是:相似度、自然度、错误率、段落总体感觉。其中段落总体感觉又分为6个分项:愉悦感、停顿节奏、重读、声调、情感、耐听性。在这些方面,讯飞代表了当今语音技术领域的世界一流水平。讯飞留声正是按照Blizzard Challenge对语音合成的严苛要求打造的个人音库定制平台。难能可贵的是,这是全球首次将工业级解决方案精简成普通消费者能体验和应用的软件,让普通人体验复刻自己声音的奇妙之旅。
值得注意的是,这些成绩单是讯飞“顺便”取得的,或者说是技术创新下水到渠成的结果。讯飞深知,人工智能并不是搞军备竞赛,而是要在正确的方向上坚持创新突破,并将领先于全球的核心能力,通过开放平台赋予整个行业和所有从业者,形成良性生态,共同攻克人工智能的难题,共同推进人工智能的发展——这就是科大讯飞对于人工智能行业的传道授业解惑!未来,科大讯飞会继续引领行业方向,激发全行业的创新浪潮。或许AI行业的百花齐放就是对行业良师的青出于蓝,也是这个行业能繁荣向前的教学相长。
|