登录 | 注册

从0开始搭建产品经理AI知识框架:语音识别与合成

首页 > 产品经理 > 产品运营 2018-01-25 16:32:50 浏览次 共 条评论

收藏赞(分享

AI PM认知系列第三篇,字数:2300+,速读需4分钟。

从早期苹果的Siri,到最近国内的智能音箱大战,越来越多AI语音产品走入了大家的生活。

近几天我也在思考,相比已有更落地方案的计算机视觉技术,AI的语音技术在产品应用中的本质是什么?这个思考我也跟一些语音领域的专家探讨过,而其中我个人的理解是:

AI语音技术的本质,通过效率的提升,场景的便捷,重新定义了用户体验。

为什么我这么理解?那我们先来看看语音有哪些天然属性

所以,以下AI语音相关的分享,会围绕两个方面:

  1. 语音技术:语音识别和语音合成
  2. 语音技术应用和未来思考

1.语音技术:语音识别和语音合成

1.1 语音识别:ASK

语音识别(Automatic Speech Recognition)是以语音为研究对象,通过语音信号处理和模式识别让计算机自动识别人类口述语言。

简单来说,就是让机器可以听得懂人话。

其中比较核心的部分是语音听写:就是将语音信息转化为文字信息。

中文语音听写的技术原理,如下:

而这里的特征提取,声学模型语言模型在技术实现上,有两种方法:

目前语音识别技术主要是通过DNN实现的,特定场景下最高可以达到97%的识别率

1.2语音合成:TTS

语音合成(Text-To-Speech)是计算机将自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

简单来说,就是机器讲文字朗读出来。

中文的语音合成技术原理,如下:

  1. 先通过规则把一段文字分词,如:我|爱|产品|经理。
  2. 把这段文字进行韵律的处理,标出是发什么音。
  3. 根据语音库的发音,进行单元的拼接。
  4. 最后就可以播放出这段语音了。

目前主要实现是两种方法:

拼接法的优点就是更自然,但是缺点是需要大量的录音,和存储。

参数法的优点就是存储小,但是缺点就是不够自然,听起来就是怪怪的机器发音。

另外谷歌发布的WaveNet是基于语音网络使用生成算法制作而成的,相对于以前的拼接法、参数法,在声音表现力上更具优势。

此外,语音合成的技术主要体现在四个方面

目前的语音合成技术相对比较成熟,进一步优化的同时,大家的重点都放在了表现力上,以符合更多的场景应用,满足不同人对个性化的需求。

举个例子:

前一段时间,我打车时候看到司机师傅使用高德的语音导航,语音合成用的是一个小朋友的声音,我们就聊了起来,司机师傅说他才刚开始拉活,路不熟,他不喜欢郭德纲的声音,话忒多,他用小朋友的声音,一个是语速慢,另外一个是吐字清晰,不会因为听不清楚走错路。

这个就是在不同场景下用户对于表现力的个性化需求,因人而异。

1.3产品应用中涉及的语音相关技术

目前我们用微信语音或者是Siri时,都属于近场的识别,而智能音箱,车载设备,机器人的语音都属于远场识别,远场识别会受到,距离,噪音,混响…等问题,需要有其他的相关技术来配合完成,提高识别率。

麦克风阵列:由一定数量的麦克风组成,用来对声场的空间特性进行采样并处理的系统。用于在会议室、户外、商场等各种复杂环境下,解决噪音、混响、人声干扰、回声等各种问题。

麦克风阵列又分为:2麦克风阵列,4麦克风阵列,6麦克风阵列,6+1麦克风阵列。

随着麦克风数量的增多,拾音的距离噪声抑制声源定位的角度,以及价,都会上升,所如如何选择要贴合实际应用的场景,找到最佳的方案。

举个例子:

猎豹小雅AI音箱,用的就是6+1麦克风阵列,因为要针对360度的3-5米的场景中使用。而很多家电,比如电视机都是贴墙放置的,2麦克风阵列的180度,就足够使用了。

而两者麦克风阵列技术要求和价格相差数倍。所以对于产品落地来讲,在提供解决方案的时候,选择最优的方案。

语音激活检测:在用微信时候,你会点击语音的按钮,来让语音开始识别。而在远场的时候,没有办法进行相关的操作,所以需要判断什么时候有语音,什么时候没有语音。

语音唤醒:通过关键词来唤醒你的语音设备,比如:嘿~Siri,这时候语音识别才开始工作。

语音唤醒难点在于,唤醒的响应时间功耗要低,唤醒的漏报和误报率……等。

2语音技术应用和未来的思考

目前的语音识别技术,相对成熟应用还在近场语音

而语音产品的未来方向的挑战:

未来远场语音的场景比想象的更为复杂,虽然语音识别的相关技术在智能音箱的家居场景下表现的还不错,但家居环境毕竟相对安静可控,但是其他的远场语音就没有这么顺利了。

例如:

车载识别,在开车的环境下太多噪音,发动机的声音,打开车窗的风声,车胎声,路面声音,这些噪音都会影响到语音的识别。

而解决的方法,是要在识别之前,消除掉这些噪音,但这样就会产生一个问题,那么多种声音,机器怎么知道要消除哪些?保留哪些?

现在的方法是怎么做的? 扛着个麦克风,去各个车型里面录噪音,然后把各种车,各种场景下的噪音给机器去学习,让机器分辨出哪些声音是要消除的。但不同环境,路面,不同的汽车发出的声音又都不完全一样,有大量的工作和太多不可控的情况。

将来如果想在更多场景,比如酒吧,体育场,就会更复杂,除了环境音,还有更多人说话,比如“鸡尾酒效应”,所以未来的语音之路,会面临更多挑战。

语音的理解就涉及到另外一个AI技术了“自然语言处理”,目的是与机器沟通时候,它可以更好的理解你的意思,并给出相对的判断或反馈,避免像现在的聊天机器人出现的所答非所问,上句不接下句的情况,而有关自然语言处理,是一个更大的课题,也是AI目前的主要瓶颈之一,会再下一个分享中具体进行讨论。

以上就是我有关AI语音的分享,是AI PM认知系列的第三篇,如果任何的疑问或建议,欢迎随时沟通探讨。

相关阅读:

第一篇: 从0开始搭建产品经理的AI认知体系

第二篇: 产品经理的AI知识框架:计算机视觉

;

免责声明:本文来源于,由网友提供或网络搜集,仅供个人研究、交流学习使用,不涉及商业盈利目的。如有版权问题,请联系本站管理员予以更改或删除。优知网会定期发布产品经理相关趋势文章,包括 产品设计 产品运营 产品市场 数据报告 原型设计 等领域,敬请关注!

分享到
人收藏5 收藏
 
相关文章
优就业产品经理教程-如何从零开始成为内容运营
优就业产品经理教程-如何从零开始成为内容运营
优就业产品经理教程-增加用户的活跃度的6大手段
优就业产品经理教程-增加用户的活跃度的6大手段
优就业产品经理教程-从产品的三个阶段全方位解析产品运营体系
优就业产品经理教程-从产品的三个阶段全方位解析产品运营体系
优就业产品经理教程-用精神激励法,去激励用户持续贡献
优就业产品经理教程-用精神激励法,去激励用户持续贡献
 
 

咨询中心

优就业微信扫一扫
微信扫一扫

400-650-7353

加入官方微博