近日,科大讯飞iFLYOS 和可口可乐联手推出了一个趣味活动。我们在 H5 活动页面中输入自己和朋友的昵称后,便能听到可口可乐代言人“居老师”朱一龙以自己的名义为朋友送出花式语音祝福。
当你听到自己的名字从朱一龙口中说出来,相信你一定会惊呼神奇。但与此同时,大家也可能会感到十分疑惑,难道科大讯飞和可口可乐真的请朱一龙对着千万网友的名字都念了一遍?这当然是不可能的。另外,这也不是什么魔法,而是 AI 语音合成技术的力量。
该 AI 语音合成技术源自于科大讯飞消费者事业群面向万物互联时代推出的全新 iFLYOS 智能物联网操作系统。该操作系统由科大讯飞研发,为音箱、车载系统、蓝牙耳机和机器人、智能家居等场景提供语音交互解决方案,同样也可以为软件乃至任何消费场景带来 AI 能力。媲美真人的语音合成技术背后,是科大讯飞 20 年源头技术创新的坚守。据悉,目前科大讯飞已实现通过采集真人声音,再通过特征训练和优化,合成出本人的声音。
本次可口可乐的语音反转瓶 H5 互动中朱一龙合成声音的品质有目共睹,虽然是由 AI 合成,但自然度、语气和情感方面,已经无限接近真人。可见,AI 赋能消费场景,让每个人感受到科技发展带来的快乐。
朱一龙的亲切问候打动你了吗?或许大家都不曾想到,AI 语音合成技术已经发展到了这么先进的阶段。实际上,AI 语音合成技术的发展比你想象的还要早,也早已融入到我们的生活当中。
在消费市场上,从 2011 年面世的 siri 到 2016 年谷歌发布 Google Assistant 语音助手,每一次新技术、新产品的发布,都吸引了人工智能、科技行业的广泛关注。但是不必羡慕他人,以科大讯飞为代表的中国企业在语音和人工智能领域已走在了世界的前列。
2010年,科大讯飞就发布了讯飞开放平台,目前,讯飞开放平台已成为全球最大的语音和人工智能开放平台,覆盖终端用户数超过 24 亿,合作伙伴超过 103 万家。2018 年,讯飞推出有声平台,解放双眼听它“读”文章小说。早在 2014 年,科大讯飞就携手高德地图上推出林志玲、郭德纲导航语音,AI 语音技术应用到日常生活中。
在语音合成这条道路上,科大讯飞也可谓是一路荣耀。2006年,科大讯飞首次参加 Blizzard Challenge 国际语音合成大赛,即获得可懂度和自然度两个指标双料第一。到 2019 年科大讯飞一路高歌猛进,在该赛事上连续蝉联 14 届冠军。在今年的比赛中,科大讯飞把合成系统的最关键指标自然度从去年的 4.0MOS,提高到 4.5MOS,创历史新高,实现了从“良好”到“优秀”质的提升。
当然,AI 语音合成技术不过是科大讯飞 iFLYOS 诸多功能中的冰山一角,这套系统在语音识别准确率、识别能力上也十分出彩。
实验室数据显示,iFLYOS 中文语音识别准确率达到 98.6%,并支持方言识别。换言之,全国范围内的使用者不必非得使用标准的普通话也能和设备进行语音交流,尤其是对老一辈用户有非常高的实用价值,大大降低了人机交互的使用门槛。
除此之外,iFLYOS 还内置 200 多个官方自研技能,并与腾讯音乐、喜马拉雅等100 多家内容方达成了深度合作,而且还能和各种智能设备和应用场景互相串联,为消费者带来真正意义上的“未来科幻生活”。
放眼未来,iFLYOS 更是有着光明前景。这背后主要得益于 AI 技术的发展趋势,和AIoT 市场的爆发。这二者的发展是相辅相成的,软件能力的发展需要硬件基数为载体,而硬件产品的热销则对软件能力提出了高要求。
因此,拥有不俗 AI 语音能力、能够完美赋能软硬件多场景的 iFLYOS 必然会成为行业关注的对象,而和可口可乐的这场合作似乎就是一场预演。
我们初次认识科大讯飞可能是从讯飞的语音技术和讯飞输入法开始,但实际上科大讯飞面向 C 端已经形成了翻译、转写、教育等垂直产品赛道和语音交互系统及开放平台。
自 16 年以来,科大讯飞先后推出了讯飞翻译机、讯飞听见会议系统、讯飞智能录音笔、讯飞学习机等一系列软硬件一体化产品。仔细了解之后不难发现,科大讯飞的这些硬件产品覆盖了生活、办公、学习等诸多场景。例如,翻译机适用于涉外商贸和跨国游沟通,讯飞听见会议系统和录音笔适用于会议字幕、会议纪要、培训记录,智能办公本适用于日常办公,阿尔法蛋和学习机X1 Pro 则是儿童学习的好伴侣。
在今年 618 年中大促中夺得五大品类六项第一,销售额同比增长 260%,C 端产品全线领跑。在 AI 语音交互领域,科大讯飞的技术实力可以说是行业标杆性的存在,更使得多场景赋能成为可能。目前,讯飞语音交互引擎已经能够实现语音识别声音准确率 98%,更有方言识别、声纹识别等多项硬核实力,声纹识别准确率达95+。科大讯飞董事长刘庆峰曾表示,To B-To C 双轮驱动战略扎实前行是科大讯飞的重要变化。目前双轮驱动的良好格局正在形成,在各种经济周期下实现相互补充、相互促进。
双轮驱动战略可谓是科大讯飞未来发展的方向标,也是科大讯飞能够取得现有成绩的主要原因。科大讯飞依靠其全面且有针对性的技术布局,让自己获得了在技术和产品双层面的领先优势。在市面上难有企业能够做到像科大讯飞那样,既将AI语音技术研究得这么深入,又能把产品做得如此周到。
创立 20 年,在技术层面科大讯飞早已走在行业前端,但现在的科大讯飞不再是默不作声的技术输出者,而是要成为台前的开拓者和领跑者。科大讯飞的战略布局尤其是消费者布局业务日渐清晰,对行业的影响主要是出现在三个方面。
第一, AI语音将会再度迎来爆发。
科大讯飞提供的 AI 语音技术除了性能出众,还有另外一个特点便是接入方便,开发门槛低。第三方软硬件可以快捷、高效地接入到科大讯飞的技术平台或者技术当中,在短时间内获得 AI 能力。
此举肯定会推动 AI 语音技术在市场中快速普及,而且受惠层面远不止消费市场,包括教育、公益等领域我们都能享受到 AI 语音技术带来的各种便利,往后 AI 语音技术很可能会无处不在。
第二,语音将成为主流交互方式。
我国大力支持 5G 产业发展,并强调了要提升 IoT 设备的“无屏”体验。在“万物互联”的未来构想中,连接到网络的设备不一定会拥有屏幕,因此语音对话便会成为最主要的交互方式。
由此可见, 以科大讯飞为首的智能语音和人工智能企业将迎来历史性的发展机遇,他们的技术有望大量应用到智能硬件之中,彻底改变传统的人机交互方式。
第三,带来AI赋能万物的时代。
谁能想到,可口可乐能和科大讯飞有这样一份跨界合作?这份“神奇”很可能会在未来变成常态,以科大讯飞目前涉及的领域来看,他们有足够的能力为客户提供定制化、多样化的合作方案,和生活快消品合作可以是利用云端 AI 技术提供 AI 视觉、听觉交互,和科技类产品合作则是在底层提供 AI 技术以提升综合体验。
毫不夸张地说,只要有需求,就算是一张纸也能加入 AI 元素,“万物皆可AI”的时代,似乎不远了。
种种迹象显示,在 AI 语音领域科大讯飞几乎是站在了金字塔顶端,能够与之相比较的企业寥寥无几。科大讯飞深厚的 AI 技术功底决定了其行业地位,而丰富的软硬件应用场景则带来了宝贵的技术应用经验。
“道”、“术”兼得的科技企业在世界范围内均属少见,相信这便是科大讯飞在二十年以来的立足之本。