扫除人类语言障碍!Meta发布全新 AI 模型,支持近百种语言的翻译和转录

时间:2023-08-24 04:32:22 来源:头部科技

文丨Congerry、Blink162

推倒人类世界的巴别塔!

Meta发布了一个名为SeamlessM4T的人工智能(AI)模型,可以翻译和转录近百种语言。


(资料图片)

同时,SeamlessM4T将与新的翻译数据集SeamlessAlign一同开源,它代表了人工智能驱动的“语音到语音”和“语音到文本”领域的“重大突破”。

对于语音转语音和文本转语音的操作,它可以识别100种输入语言,并将其转换为35种输出语言。

是不是,以后就不可以不用学外语了?

这个AI模型可以支持语音翻译转语音,比如英语语音直接转俄语语音:

还可以支持语音翻译直接转文字:

当然还有最简单文本之间的互译:

训练SeamlessM4T,打造SeamlessAlign数据集

SeamlessM4T 不是一蹴而就的。

SeamlessM4T 是Meta公司的"No Language Left Behind "(文本到文本机器翻译模型)和 "Universal Speech Translator "(支持闽南语的少数直接语音到语音翻译系统之一)的精神继承者。

同时,它还建立在Massively Multilingual Speech(Meta提供的一种支持超过1100种语言的语音识别、语言识别和语音合成技术的框架)之上。

Meta 解释了如何利用重新设计的 Fairseq 序列建模工具包,结合多任务 UnitY 模型架构,构建 SeamlessM4T。

其中,多任务 UnitY 模型由三个主要序列组件组成:

文本和语音编码器:负责识别近100种语言的语音输入,并将其转换为内部表示。 文本解码器:负责将编码后的语音表示或文本表示转换为目标语言的文本输出。 文本到单元(T2U)模型:负责将文本输出解码为36种语言的离散声学单元。 多语言HiFi-GAN单元声码器:负责将离散单元转换为音频波形

为了提高模型的质量和训练稳定性,Meta还对该模型中的各个组件都进行了预训练。例如,自监督语音编码器w2v-BERT 2.0是w2v-BERT的改进版本,它是通过分析数百万小时的多语言语音来学习查找语音中的结构和含义训练而成的。

当然,这只是工作的一部分。

像 SeamlessM4T 这样的数据驱动模型通常得益于大量高质量的端到端数据,即语音到文本和语音到语音数据,仅依靠人工转录和翻译的语音扩展到处理 100 种语言语音翻译的挑战性任务。

Meta在其先驱性工作上进行了建设,使用联合嵌入空间中的相似度度量进行文本到文本挖掘,并在语音挖掘方面进行了初步工作,以创建额外的资源来训练SeamlessM4T模型。

首先,研究人员为 200 种语言构建了一个新的大规模多语言和模式文本嵌入空间,命名为 SONAR(Sentence-level mOdality- and laNguage-Agnostic Representations),它在多语言相似性搜索方面大大优于 LASER3 或 LaBSE 等现有方法。

然后,研究人员采用教师-学生模型(a teacher-student approach)将SONAR扩展到语音模态,目前已覆盖 36 种语言。

注:a teacher-student approach是一种机器学习方法,它可以利用一个已经训练好的模型(teacher)来指导另一个模型(student)的学习过程。这种方法的目的是让student模型能够学习到teacher模型的知识和技能,从而提高student模型的性能和效率。

这项工作是在公开的网络数据(数百亿句子)和语音(400 万小时)资源库中进行的,研究人员总共自动对齐了超过 443,000 小时的语音和文本和约 29,000 小时的语音对语音对齐。

这个语料库被称为 SeamlessAlign,它“教会”SeamlessM4T 如何将语音转录为文本、翻译文本、从文本生成语音,甚至将一种语言中的单词翻译成另一种语言中的单词。

SeamlessAlign也是迄今为止最大的开放式多模态翻译数据集。

此外, BLASER 2.0 测试结果显示SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好(平均分别提高了 37% 和 48%),且性能也优于之前最先进的竞争对手。

Meta 首席人工智能科学家Yann LeCun也转发了与SeamlessAlign相关的信息。

不过评论区的网友对此似乎并不“买账”。

也有网友提出了自己的疑问和建议。

还有网友认为,SeamlessM4T 会让我们在5年时间内拥有一台通用翻译器。

与此同时,Meta 也表示,下一步的任务是探索 SeamlessM4T 如何作为新通信能力的基础,让我们更接近一个人人都能被理解的世界。(终于消除语言隔阂了吗)

如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包不限量哟~

标签:

x 广告
x 广告

Copyright ©  2015-2022 热讯文旅网版权所有  备案号:豫ICP备20005723号-6   联系邮箱:29 59 11 57 8@qq.com