本篇文章2008字,读完约5分钟

在过去的一年里,售出近1000万元的亚马逊回声,在面向消费者的领域里,人工智能的明星产品总是不可避免的存在。

在谈到echo成功的原因时,盛智科技的合伙人李志勇告诉雷锋。(公开号码:雷锋。亚马逊echo根本没有进行任何功能创新,所有的事情,比如听歌、看新闻、设置闹钟、讲笑话和控制家用电器,都可以在手机上被取代。唯一的改变是将语音交互模式从近场升级到远场,并将准确度和速度提升到非常好的程度。

福利预告 | 声智CTO冯大航直播答疑:远场语音交互核心技术

一点小小的改变似乎就能创造出一个巨大的产业。自echo以来,全球科技巨头相继推出了自己的智能扬声器。然而,当鲜花变得越来越有吸引力时,估计大多数技术爱好者都有和雷锋一样的问题。远场语音交互技术如此强大,我们在哪里可以学到它?

福利预告 | 声智CTO冯大航直播答疑:远场语音交互核心技术

不久前,雷mooc.ai推出了一个针对远场语音交互技术的实践培训课程,由语音交互专家、盛智科技首席技术官冯大航主讲。冯大行的介绍如下:

丰达行

冯大航:自2007年以来,他一直从事语音信号处理、麦克风阵列信号处理和语音识别研究,在语音交互领域积累了10年的经验。他于2007年毕业于中国科技大学电子信息工程系,并于2007年至2012年在中国科学院声学研究所攻读博士学位。在博士期间,他发表了几篇关于阵列信号处理方向的sci和ei论文。2012年,他获得了中国科学院院长的奖学金。毕业后,他在中国科学院声学研究所担任助理研究员。在工作期间,他获得了国家自然科学基金项目,并参与了几个重大国家项目;2015年,他在云之声工作,负责远场语音识别的前端算法。2016年5月,他共同创立了盛智科技。

福利预告 | 声智CTO冯大航直播答疑:远场语音交互核心技术

本课程共分四章24学时,主要讲解语音信号处理、麦克风阵列信号处理和语音识别中的关键技术和实用技巧。通过本课程的学习,我们可以了解人工智能设备(智能音频、机器人、车载设备等)中语音交互的关键技术。),并根据一些开源软件和硬件设备构建了一个远场语音识别系统。同时,语音信号处理中的回声消除和噪声抑制技术也是voip的核心,广泛应用于各种直播中。

福利预告 | 声智CTO冯大航直播答疑:远场语音交互核心技术

除了在课程中进行深入的分析和讲解外,冯老师还在课后与同学们在评论区进行互动,讨论技术细节。

部分讨论内容如下:

问题1:

学生:冯老师,你好!你说回声实时估计说话者的方向,这很困难,那么回声是如何做到的呢?

冯大航:实际上,从技术上讲,实时估计说话人的方向并不困难。您可以使用语音端点检测来检测语音,然后将语音分成多个片段,每个片段都可以进行doa估计。最后,利用卡尔曼滤波器对这些波达方向估计结果进行滤波,并对说话人进行跟踪。但实际上,情况很复杂。例如,如果有人突然说话,波达方向估计可能是错误的。实际上,这种方法不够健壮。当你实际使用回声时,你会发现如果你在它旁边放一个干扰源,它的波达方向经常会出错。叮咚音频,我们的音频采用的策略是只计算一次说话人的方向,以增加鲁棒性。

福利预告 | 声智CTO冯大航直播答疑:远场语音交互核心技术

问题2:

学生:在实际工程中,麦克风阵列和单通道回声消除有什么区别?麦克风阵列回声消除的优势是什么?

冯大航:消除麦克风阵列回波的方法有很多,即先做回波抵消再波束形成,先做波束形成再回波抵消,或者先做一些回波抵消再波束形成再回波抵消。根据系统的计算能力和波束形成结构,很难给出定性的结论。一般来说,先回声消除后波束形成效果最好,但计算量最大。

福利预告 | 声智CTO冯大航直播答疑:远场语音交互核心技术

麦克风阵列对回声消除的影响主要体现在以下算法中,如波束形成和去混响,因为波束形成也可以抑制回声。因此,总体而言,麦克风阵列的回声消除效果优于单个麦克风。

福利预告 | 声智CTO冯大航直播答疑:远场语音交互核心技术

问题3:

学生:在现实环境中,不可避免的会有多个声源,混响等等。请问,如何判断音乐算法中360°波束扫描波达方向所获得的峰值的真实性?例如,在单源+混响的情况下,麦克风阵列将从不同方向接收源和混响信号。音乐的音源数量可以更大吗,比如4个?这样,可以同时估计源方向和混响方向,而不影响算法的鲁棒性。

福利预告 | 声智CTO冯大航直播答疑:远场语音交互核心技术

冯大航:这涉及到信源数估计的问题,学术界已经研究了很多,比如用最简单的方法来判断自相关矩阵的特征值,但是实际效果并不好。如果音乐来源的数量很大,一些信息将是无用的。例如,如果你只取三个原始噪声矢量中的一个,结果肯定不如用三个矢量计算的结果好。因此,music算法最大的问题是需要预先估计源的数量,并且很难估计源的数量,这是一个无限循环。虽然该算法带来了好处,但它也必然有缺点,这取决于您使用的场景是否能容忍这种缺点。

福利预告 | 声智CTO冯大航直播答疑:远场语音交互核心技术

学生和老师之间有很多这样的问题和答案。作为学生福利,7月1日上午10点,雷锋特别邀请冯大航对课程内容进行现场直播。为了让更多对发音和声学感兴趣的童鞋参与,我们预留了一些参与的场所,但为了保证回答问题的质量,一旦儿童人数达到限制,报名入口将关闭。

福利预告 | 声智CTO冯大航直播答疑:远场语音交互核心技术

这次直播的现场地址是:mooc.ai/course/109,,可以免费观看。请设置闹钟并提前准备问题。您还可以添加一个教学助手微信:mooccai,并报告您的姓名和目的。

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:福利预告 | 声智CTO冯大航直播答疑:远场语音交互核心技术

地址:http://www.hcsbodzyz.com/hcxw/4901.html