首页 > 要闻 > 正文

脸书声称wav2vec 2.0有10分钟的标签数据

导读 在印前服务器Arxiv org上发表的一篇论文中,脸书的研究人员描述了wav2vec 2 0,这是一种改进的自监督语音识别框架。他们声称,这第一次

在印前服务器Arxiv.org上发表的一篇论文中,脸书的研究人员描述了wav2vec2.0,这是一种改进的自监督语音识别框架。他们声称,这第一次证明了从发音中学习表征,然后对转录后的发音进行微调,可以超越最好的半监督方法,同时,概念更简单,只需10分钟就可以得到最新的结果。标记数据并对53,000小时的未标记数据进行预培训。

人工智能模型受益于大量有标签的数据——这是它们学习如何推断模式和做出预测的方式。然而,就像论文的合著者一样,标记数据通常比未标记数据更难获得。目前的语音识别系统需要数千小时来转录语音,以达到可接受的性能,但世界上近7000种语言中的大多数都无法使用。脸书最初的wav2vec和其他系统试图通过自我监控来避免这种情况,这种监控会根据数据自动生成标签。然而,与半监督方法相比,它们在性能上有一些缺点。半监督方法在训练过程中结合了少量的已标记数据和大量的未标记数据。

从表面上看,Wav2vec2.0桥接了编码器模块的间隙,编码器模块获取原始音频并输出语音表示,然后将这些语音表示提供给Transformer,以确保这些表示捕获整个音频序列信息。Transformer网络架构是谷歌研究人员在2017年创建的,最初是作为一种改进机器翻译的方法而设计的。因此,它用注意函数代替递归神经网络来预测序列中的下一步。该特性使wav2vec2.0能够在连续语音表示的基础上构建上下文表示,并记录音频序列端到端的统计相关性。

为了预训练wav2vec2.0,研究人员屏蔽了一些语音表达(约占所有时间步长的49%,平均跨度为299毫秒),并要求系统正确预测。然后,为了对其进行微调以进行语音识别,他们在wav2vec2.0上添加了一个投影,该投影以字符和单词边界(例如,英语书面单词的单词空间)标记的形式表示词汇,然后在训练过程中执行额外的掩蔽。

共同作者在128个NvidiaV100显卡上对wav2vec2.0进行了5.2天的多种未标记和未标记数据源的培训,以评估系统的性能。在8到24个显卡之间进行微调。

根据该团队的说法,在开源Librispeech语料库上,经过最大规模训练的wav2vec2.0模型(仅微调了10分钟的标记数据(48条记录,平均长度为12.5秒))的单词错误率达到了5.7。(这里的“单词错误率”是指错误数除以单词总数。在Librispeech的100小时子集中,同型号的错词率比上一级低2.3-45%。经过训练,标签数据减少了100倍——微调更多数据时减少了1.9倍。与依赖于更复杂架构的顶层半监督方法相比,这一结果具有竞争力。

研究人员写道:“[这表明超低资源语音识别可以通过对未标记数据的自监督学习来实现。”“我们已经证明,我们可以使用非常少量的带注释的数据来构建具有非常好准确性的语音识别模型。我们希望我们的工作将使语音识别技术在更多的语言和方言中得到更广泛的应用。”

脸书使用原始的wav2vec为关键词发现和语音事件检测提供更好的音频数据表示,并改进其系统以主动识别违反社区指导方针的帖子。Wav2vec2.0可应用于同一任务;此外,该公司表示,计划提供模型和代码来扩展其fairseq建模工具包。

免责声明:本文由用户上传,如有侵权请联系删除!

标签:

Copyright @ 2015 -2023 太行之窗 All Rights Reserved. 网站地图 | 百度地图 .