谷歌开源AI能区分声音准确率达92%

4143

发布：2021-10-12 09:23:40 来自淡抹烟熏妆蚂蚜会员 L1

行业动态】据VentureBeat报道，在语音嘈杂的环境中，要想分辨出有几个人讲话、在什么时间讲话，对于机器来说非常困难。但谷歌人工智能(AI)研究部门在语音识别方面取得了新进展，能以92%的准确率识别出每个人声音的专属模式。

谷歌AI研究部门在最新名为《FullySupervisedSpeakerDiarization》的论文和相关博客文章中，研究人员描述了一种新的AI系统，它“能以一种更有效的方式识别声音”。

谷歌开源AI能区分声音准确率达92%_设计制作_测量仪表

这套系统涉及到Speakerdiarization任务，即需要标注出“谁”从“什么时候”到“什么时候”在说话，将语音样本分割成独特的、同构片段的过程。强大的AI系统必须能够将新的演讲者发音与它以前从未遇到过的语音片段关联起来。

这篇论文的作者声称，核心算法已经可在Github上的开源软件中可用，它实现了一个在线二值化错误率(DER)，在NISTSRE2000CALLHOME基准上是7.6%，这对于实时应用来说已经足够低了，而谷歌之前使用的方法DER为8.8%。

谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示)，递归神经网络是一种机器学习模型，它可以利用内部状态来处理输入序列。每个演讲者都从自己的RNN实例开始，该实例不断更新给定新嵌入的RNN状态，使系统能够学习发言者共享的高级知识。

研究人员在论文中写道:“由于该系统的所有组件都可以在监督环境下学习，所以在有高质量时间标记演讲者标签训练数据的情况下，它比无监督系统更受青睐。我们的系统受到全面监督，能够从带有时间戳的演讲者标签例子中学习。”

在未来的工作中，研究团队计划改进模型，使其能够集成上下文信息来执行脱机解码，他们希望这将进一步减少DER。研究人员还希望能够直接对声学特征进行建模，这样整个Speakerdiarization系统就可以进行端到端训练。

特别声明：本文仅供交流学习 , 版权归属原作者，并不代表蚂蚜网赞同其观点和对其真实性负责。若文章无意侵犯到您的知识产权，损害了您的利益，烦请与我们联系vmaya_gz@126.com，我们将在24小时内进行修改或删除。

û95 ñ35 0 32

数字化时代，工业思维宜与时俱进
企业今天面临的主要挑战，虽然与工业化时代相比有所不同，但是和那时为“高质量、低成本”而奋斗的企业一样处在“危机的转折点上”，因为数字经济
你与清晨阳光 ⋅2887人浏览 ⋅一个月前
高增长型企业如何利用人工智能加速竞争优势？
领先的企业正在竞相实施人工智能以提高自身的竞争力，这使得人工智能的采用率相比20多年前的互联网时代增长地更为迅猛。如果人工智能一度被视为
蓝颜子瑜 ⋅3905人浏览 ⋅一个月前
工业互联网峰会：我国工业互联网已从概念普及进入实践生根阶段
工业互联网是工业数字化、网络化和智能化发展的基础。2月21日，2019工业互联网峰会在北京召开，并发布了工业互联网重大成果。工业和信息化
╯念抹浅笑 ⋅164人浏览 ⋅一个月前
任正非:美国5G技术视为一种战略武器,将掀起新一轮冷战
任正非接受德国《商报》和《经济周刊》采访，再次针对美国对华为5G的打压表态。“很不幸，美国将5G技术视为一种战略武器。对他们来说，这就像
看我发功喷飞你 ⋅4589人浏览 ⋅一个月前
粤港澳大湾区首个大容量海上风电项目投产
金湾海上风电场总装机容量为300兆瓦，共安装55台单机容量5.5兆瓦的国产抗台风型海上风力发电机组，配套建设一座陆上集控中心和海上升压站
摩天轮的依恋 ⋅1377人浏览 ⋅一个月前
物联网网关：智能家居发展的重要支撑点
在无线传感网中，物联网网关是不可或缺的核心设备。此外物联网网关还需要具备设备管理功能，运营商通过物联网网关设备可以管理底层的各感知节点，
姑娘拽天下 ⋅606人浏览 ⋅一个月前
如何利用区块链保护数据安全
PeopleMagazine发表了有关数据挖掘和隐私的文章，将PersonalDigitalSpaces的创始人EdwardZyszko
生命一旅程 ⋅2815人浏览 ⋅一个月前
2026年智能家居自动化市场规模将达2033亿美元
据国外一市场调查机构报告，预计到2026年，全球智能家居自动化市场规模预计将达到2033亿美元。从目前的情况来看，娱乐业务在全球智能家居
思念幻化成海 ⋅453人浏览 ⋅一个月前
意法半导体公布2018财年第四季度及全年财报
第四季度：净营收26.5亿美元;营业利润率16.8%;净利润4.18亿美元·全年：净营收96.6亿美元，增长15.8%，营业利润14.0
海氹有点甜 ⋅565人浏览 ⋅一个月前
KMI10系列旋转速率传感器的特点参数及结构原理
KMI10系列旋转速率传感器又称齿轮传感器。它是Philips公司研制开发的以Ni-Fe合金薄膜磁阻元件为核心的敏感元件，这种新颖的旋转
北朽暖栀 ⋅421人浏览 ⋅一个月前
ADuC845的性能特点、引脚功能和应用分析
1概述ADuC845是ADI公司新推出的高性能24位数据采集与处理系统，它内部集成有两个高分辨率的Δ-∑ADC、10/8通道输入
我陪着你走 ⋅3170人浏览 ⋅一个月前
工业互联网创新发展20问，原来这就是工业互联网!
今年的《政府工作报告》指出，要打造工业互联网平台，拓展“智能+”，为制造业转型升级赋能。同时，多位代表委员都肯定了工业互联网的重要地位，
海氹有点甜 ⋅662人浏览 ⋅一个月前
上半年我国人工智能核心产业规模770万亿元
中国人工智能专利申请量超美国，计算机视觉、自然语言理解等技术的应用水平达国际先进水平……近两年，人工智能产业在我国蓬勃发展，并赋能各行各
紫色的彩虹 ⋅4899人浏览 ⋅一个月前
工业互联网万亿市场可期，当前仍处投入阶段
随着制造业与互联网愈发紧密的结合，工业互联网市场或将于2020年达万亿元规模。尽管前景可观，但其发展过程中的工控安全、发展速度、成本与风
全网暗恋者 ⋅1004人浏览 ⋅一个月前
扁线电机的优势_扁线电机的劣势
扁线电机驱动电机主要由定子组件、转子组件、端盖和辅助标准件组成，而定子绕组中又包括铁芯、铜线绕组、绝缘材料等组成。扁线电机顾名思义就是定
格子的夏天 ⋅4858人浏览 ⋅一个月前
单片机闪烁灯汇编语言源代码大全（四款闪烁灯的汇编语言源代码）
单片机闪烁灯汇编语言源代码大全（一）1、单片机AT89C51的P2口接8个发光二极管，让这8个发光二极管显示闪烁功能，即八灯亮2S，熄灭
╰暴走的兔子╯ ⋅2393人浏览 ⋅一个月前
FPGA开发中的脚本语言有哪些？
多数FPGA开发者都习惯图形化界面（GUI）。GUI方式简单易学，为小项目提供了一键式流程。然而，随着FPGA项目越来越复杂，在很多情况
初夏的阳光 ⋅1468人浏览 ⋅一个月前
工业机器人系统集成商的出路在哪里？
根据相关报道数据显示，2018年中国工业机器人销量达15.64万台，同比增长14.97%，系统集成行业规模达到606.80亿元，同比增长
采姑娘的小蘑菇 ⋅4831人浏览 ⋅一个月前
中兴通讯提出了物联网+区块链的解决方案
目前物联网与区块链的融合应用，在单个垂直行业中相对成熟，比如食品行业已经有相关的溯源应用了。在跨行业融合上，也有一些案例，比如供应链综合
熟悉看不清 ⋅892人浏览 ⋅一个月前
德国赫优讯IP67netFIELD荣获2018自动化奖
德国赫优讯IP67netFIELD产品在2018德国自动化奖项(AutomationAward2018)中脱颖而出，在“标准元件和传感器
云纹梦纷蝶 ⋅3020人浏览 ⋅一个月前