百度发布Deep Speaker:大规模声纹识别的端对端系统
雷锋网按:此前雷锋网曾经报道过百度在语音技术上的百度进展。日前,发布百度美研院宣布了其在声纹识别上所取得的大的端对端突破性成果。研究表明:利用深度学习的规模方法比传统的i-vector方法在识别准确率上获得了显著的提高。
声纹识别算法寻求从音频中识别说话者的声纹识别身份。两个常见的系统识别任务是确认(说话者是不是他宣称的那个人)和说话者身份识别(在一群未知的说话者中确认声音的来源)。
该项技术已经有了各种应用。百度例如,发布声纹可以用来登录设备。大的端对端说话者确认也可以作为金融交易的规模额外安全措施。此外,声纹识别类似于智能家居助手之类的系统共享设备也可以利用这项技术来提供个性化的服务。
最近使用神经网络来进行声纹识别的百度论文已经改进了传统的i-vector方法(参考Interspeech教程的原始论文或者幻灯片)。i-vector方法认为说话内容可以被分为两个部分,发布一个部分依赖于说话者和信道可变性,大的端对端另一个部分依赖于其它的相关因素。i-vector声纹识别是一个多步过程,其涉及到使用不同说话者的数据来估计一个通用的背景模型(通常是高斯混合模型),收集充分的统计数据,提取i-vector,最后使用一个分类器来进行识别任务。
一些论文用神经网络代替了i-vector流水线的方法。其它研究者要么训练了一个文本相关(使用者必须说同样的话)的端对端语者识别系统,要么训练了文本独立(这个模型与说话内容不相关)的端对端语者识别系统。我们介绍Deep Speaker:一个端对端的神经声纹识别系统,它在文本相关和文本独立的场景下都取得了良好的效果。这意味这个系统可以被训练来识别谁在说话,无论是当你对你的家庭助手说“wake”或者你在会议中发言。
Deep Speaker由深度神经网络层组成,从音频中提取特征,基于余弦相似性的时间池和三元组损失(triplet loss)。百度美研院探究了ResNet激活的卷积模型和现有模型在提取声学特征上的效果。
说明:在这里百度美研院使用了人脸识别中采用的三元组损失。在训练过程中,他们选择了一个说话者的话语,然后计算一个嵌入(标记为“Anchor”)。再产生两个嵌入,一个来自相同的演讲者(标记为“Positive”),一个来自于不同的演讲者(标记为“Negative”)。在训练过程中,其目标是让Anchor与positive嵌入之间的余弦相似度高于Anchor与negative嵌入之间的余弦相似度。
百度美研院展示了Deep Speaker在三个不同数据集上的有效性,包括文本相关和文本独立的任务。其中之一的UIDs数据集包括大约250000名说话者,是知识文献中最大的数据集。实验结果表明:Deep Speaker要明显优于基于DNN 的i-vector方法。例如,在一个文本独立的数据集中随机挑选出100个演讲者,Deep Speaker在说话者身份确认任务上的错误率是1.83%,正确率是92.58%。相比于基于DNN 的i-vector方法,它降低了50%的错误率,提高了60%的正确率。
说明:在实验中百度美研院所使用的数据集是 UIDs,XiaoDu,和Mandarin。UIDs和XiaoDu是普通话数据集,Mturk是英语数据集。UIDs和Mturk是文本独立的数据集,XiaoDu是文本相关的数据集,其基于百度的唤醒字(wake word)。为了在不同大小的训练集上做实验,他们用了全部的UIDs数据集(250,000)和它的一个子集(50,000)。在评估阶段,他们选择了一个Anchor,然后再从测试部分随机地选择1个Anchor positive样本和99个Anchor negatives样本。
团队还发现Deep Speaker学习到了与语言无关的特征。当在普通话语境下训练时,Deep Speaker却能在英文确认和识别的任务上达到5.57%的错误率和88%的正确率。此外,先用普通话再用英文训练可相比于只用英文训练,提高了英文识别的准确率。这些结果都显示出尽管不同的语言听起来非常不同,深度语者却学习到了跨语言的声音特征。这些结果与Deep Speech 2的结果类似,同样的架构都可以用来辨认不同语言的声纹识别。
关于Deep Speaker模型的更多细节,训练技巧和实验结果都可以在论文中找到。
论文地址:https://arxiv.org/abs/1705.02304
via research.baidu,雷锋网翻译
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
717
-
浏览
48171
-
获赞
2
热门推荐
-
意媒:邓弗里斯越来越不可能续约,滕哈格非常欣赏他
据报道,邓弗里斯的国际米兰生涯很可能即将面临结束,目前已经有多家俱乐部对他产生兴趣。 来自国米新闻网的消息表示,在国米为数众多已经敲定和即将敲定的续约中,邓弗里斯的名字目前没有,以后也很可能不会出现在刘邦为什么断定项羽不敢杀他老爹?
提到刘邦和他的死对头项羽,人们都认为刘邦是个流氓,是个小人,项羽是君子。结果却是小人战胜了君子,成了最后的赢家,实在让人想不通。从很多事例来看,刘邦的所作所为,的确非君子所为,为君子所不齿,比如经常去江西空管分局开展质量安全监督检查员培训
为进一步提升质量安全监督检查工作水平,强化检查员队伍建设,10月21日,江西空管分局开展2022年第一期质量安全监督检查员培训,分局副局长黄颿莅临指导,40余名检查员参加培训。此次培训采取线上线下相结新航季开启 南航物流在黔网络再升级
通讯员 周梅)2022年10月30日起至2023年3月25日,民航执行2022冬春航班时刻。新航季,南方航空物流有限公司以下简称“南航物流”)贵州分公司优化物流网络布局,依托南尴尬!国家队被表哥取代,曼联为何不直接召回奥纳纳?
深受曼联球迷关注的一场比赛,喀麦隆凭借补时的关键进球,惊险击败对手,以小组第二名的身份,顺利晋级淘汰赛,避免了国足两平一负出局的遭遇。这样的结果,意味着奥纳纳将会继续留在国家队,不过这名争议不断的门将秦始皇的遗诏写了些什么?他的子女下落成谜
秦始皇死后,赵高采取了说服胡亥威胁李斯的手法,三人经过一番密谋,假造秦始皇发布诏书,由胡亥继承皇位。同时,还以秦始皇的名义指责扶苏为子不孝、蒙恬为臣不忠,让他们自杀,不得违抗。在得到扶苏自杀的确切消息德事隆在2022年交付的私人飞机数量将低于预期
据简氏防务网10月27日报道,美国赛斯纳公务机制造商德事隆公司表示,由于供应链问题,该公司在2022年的私人飞机交付量将低于最初预期,此前该公司公布了优于预期的季度每股收益。德事隆首席执行官Scott西北空管局空管中心终端管制室开展航空器突发事件专项应急演练
通讯员:吴渊)为进一步提升一线管制人员应对突发情况的应急处置能力,规范应急处置操作流程,完善应急处置预案,10月31日,西北空管局空管中心终端管制室开展航空器突发事件专项应急演练。本次演练采用无脚迪马:小基恩下周一前往马德里接受马竞体检,随后官宣
1月24日讯 迪马济奥报道,莫伊塞斯-基恩预计下周一加盟马德里竞技。报道称,小基恩已经准备好加盟马竞,他将在下周一抵达马德里接受体检,然后交易就会官宣。小基恩不会在租借离队之前与尤文图斯续约,目前他的珠海空管站技术保障部顺利完成新增航展频率工作
为落实第十四届航展保障措施,做好航展技术设备保障工作,2022年10月28日凌晨,珠海空管站技术保障部顺利完成在语音通信交换系统新增航展甚高频频率业务。 随着航展准备工作的有序推荐,各项(河北)礼赞身边默默耕耘的人......
(通讯员 刘艳红)时间过得飞快,转眼间我调入河北空管分局后勤中心物业管理部已有半年多的时间了,历经了春夏,又从秋天走向冬天,在这里的每一天我都感受着大家团结一心、兢兢业业,迎难而上的精神&hell江西空管分局开展防跑道侵入安全教育月专项会议
防跑道侵入工作是跑道安全的核心任务,是民航安全工作的底线。为全面提升员工跑道安全意识,根据“防跑道侵入安全教育月”活动方案,10月14日,江西空管分局召开跑道安全专项会议,管制新质生产力“普渡”众生,渡有“盐电优能﹒建真心”
报载:最近,盐城建湖供电公司“盐电优能﹒建真心”服务队,来到普渡商服机器人建湖工厂生产车间,与管理人员真诚交流,了解企业数天前投运的4台变压器及配套电力设备运行状况,并协助企业海南空管分局三亚区域管制中心开展第四季度团员大会
通讯员:李浩然 图:冯丹君)为加强三亚区域管制中心青年的法律意识,提高全体团员的政治意识与责任意识,为后续团委工作的顺利开展进行思想动员,10月28日上午,民航海南空管分局三亚区域管制中心团委召开20只有想不到没有死不到 三个死法最奇葩的皇帝
在古代,皇上虽然被臣民高呼“万岁”但是一样是凡胎肉体,也终究要生老病死。但是,接下来说的这三位皇帝的死法,真是让人大跌眼镜。历史上诸多皇帝都是酒鬼,但能出格到搞笑离奇高度的当属北齐文宣帝高洋。高洋在当