扫除人类语言障碍!Meta发布全新 AI 模型,支持近百种语言的翻译和转录
文丨Congerry、Blink162
推倒人类世界的巴别塔!
Meta发布了一个名为SeamlessM4T的人工智能(AI)模型,可以翻译和转录近百种语言。
(资料图片)
同时,SeamlessM4T将与新的翻译数据集SeamlessAlign一同开源,它代表了人工智能驱动的“语音到语音”和“语音到文本”领域的“重大突破”。
对于语音转语音和文本转语音的操作,它可以识别100种输入语言,并将其转换为35种输出语言。
是不是,以后就不可以不用学外语了?
这个AI模型可以支持语音翻译转语音,比如英语语音直接转俄语语音:
还可以支持语音翻译直接转文字:
当然还有最简单文本之间的互译:
训练SeamlessM4T,打造SeamlessAlign数据集
SeamlessM4T 不是一蹴而就的。
SeamlessM4T 是Meta公司的"No Language Left Behind "(文本到文本机器翻译模型)和 "Universal Speech Translator "(支持闽南语的少数直接语音到语音翻译系统之一)的精神继承者。
同时,它还建立在Massively Multilingual Speech(Meta提供的一种支持超过1100种语言的语音识别、语言识别和语音合成技术的框架)之上。
Meta 解释了如何利用重新设计的 Fairseq 序列建模工具包,结合多任务 UnitY 模型架构,构建 SeamlessM4T。
其中,多任务 UnitY 模型由三个主要序列组件组成:
文本和语音编码器:负责识别近100种语言的语音输入,并将其转换为内部表示。 文本解码器:负责将编码后的语音表示或文本表示转换为目标语言的文本输出。 文本到单元(T2U)模型:负责将文本输出解码为36种语言的离散声学单元。 多语言HiFi-GAN单元声码器:负责将离散单元转换为音频波形。为了提高模型的质量和训练稳定性,Meta还对该模型中的各个组件都进行了预训练。例如,自监督语音编码器w2v-BERT 2.0是w2v-BERT的改进版本,它是通过分析数百万小时的多语言语音来学习查找语音中的结构和含义训练而成的。
当然,这只是工作的一部分。
像 SeamlessM4T 这样的数据驱动模型通常得益于大量高质量的端到端数据,即语音到文本和语音到语音数据,仅依靠人工转录和翻译的语音扩展到处理 100 种语言语音翻译的挑战性任务。
Meta在其先驱性工作上进行了建设,使用联合嵌入空间中的相似度度量进行文本到文本挖掘,并在语音挖掘方面进行了初步工作,以创建额外的资源来训练SeamlessM4T模型。
首先,研究人员为 200 种语言构建了一个新的大规模多语言和模式文本嵌入空间,命名为 SONAR(Sentence-level mOdality- and laNguage-Agnostic Representations),它在多语言相似性搜索方面大大优于 LASER3 或 LaBSE 等现有方法。
然后,研究人员采用教师-学生模型(a teacher-student approach)将SONAR扩展到语音模态,目前已覆盖 36 种语言。
注:a teacher-student approach是一种机器学习方法,它可以利用一个已经训练好的模型(teacher)来指导另一个模型(student)的学习过程。这种方法的目的是让student模型能够学习到teacher模型的知识和技能,从而提高student模型的性能和效率。
这项工作是在公开的网络数据(数百亿句子)和语音(400 万小时)资源库中进行的,研究人员总共自动对齐了超过 443,000 小时的语音和文本和约 29,000 小时的语音对语音对齐。
这个语料库被称为 SeamlessAlign,它“教会”SeamlessM4T 如何将语音转录为文本、翻译文本、从文本生成语音,甚至将一种语言中的单词翻译成另一种语言中的单词。
SeamlessAlign也是迄今为止最大的开放式多模态翻译数据集。
此外, BLASER 2.0 测试结果显示SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好(平均分别提高了 37% 和 48%),且性能也优于之前最先进的竞争对手。
Meta 首席人工智能科学家Yann LeCun也转发了与SeamlessAlign相关的信息。
不过评论区的网友对此似乎并不“买账”。
也有网友提出了自己的疑问和建议。
还有网友认为,SeamlessM4T 会让我们在5年时间内拥有一台通用翻译器。
与此同时,Meta 也表示,下一步的任务是探索 SeamlessM4T 如何作为新通信能力的基础,让我们更接近一个人人都能被理解的世界。(终于消除语言隔阂了吗)
如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包不限量哟~
标签:
- 扫除人类语言障碍!Meta发布全新 AI 模型,支持近百种语言的翻译和转录
- 江西省红十字会向新疆阿克陶县捐赠爱心款物
- 怎么添加公众号 微信公众号怎么添加公众号
- 怎样聊天才能让人喜欢(怎样聊天才能让人有兴趣聊下去)
- 中国人寿保单贷款利率是多少(中国人寿保单贷款)
- 从男足到女足!西班牙足球演绎一场跨越13年的接力
- 止痒清爽洗发水控油去屑?专家品鉴
- 大枪装备选择_大枪装备
- 8月22日中国汽、柴油平均批发价格分别为9211、8154元/吨
- 乌克兰总统泽连斯基会见塞尔维亚总统武契奇 具体是怎么回事?
- 欢乐佤谷门票多少钱
- 国电电力于秦皇岛设子公司,含海洋能系统与设备制造业务
- 美腾科技上半年营收增长37.31%,股权激励计划擘画高增长蓝图
- 2023年全国早稻产量同比增长0.8% 单产小幅增长
- 一岁孩子怎么教育
- 判给母亲抚养费是多少
- 硅业分会:本周N-P价差进一步拉大 后市仍有上涨空间
- 江苏兴化发现距今约7000年的新石器遗址
- 青海发布公告:私自探险、穿越无人区等被困救援费用由相关人员全额承担
- 中华优秀传统文化内容成为中国出版集团参加2023上海书展的突出亮点
- 闵行医疗专家“组团式”帮扶,从门诊到手术,从看病到科普……丨一家亲
- 追梦:我选秀试训统治级表现,大部分总经理太蠢了不选我
- 全省首家“民营企业服务站”挂牌成立
- 14本已完结轻松欢乐风奥特曼元素小说,相信光的力量,这真是光?
- 梅西:还没有考虑退役,在巴黎时特别想念在巴萨的时光
- 青云科技:8月22日融资净买入327.5万元,连续3日累计净买入700.54万元
- 进口大众abs传感器故障,大众abs传感器故障症状
- 白色的花有哪些品种名称 白色的花有哪些
- 《第八个嫌疑人》曝“正邪交锋”预告,执着警察21年拼命追凶
- 英国政府拟邀请马斯克与贝索斯出席11月全球投资峰会
-
从男足到女足!西班牙足球演绎一场跨越13年的接力
2023-08-24 -
大枪装备选择_大枪装备
2023-08-24 -
一图了然|接到96110来电千万不要挂!还有这些电话也要关注......
2023-08-23 -
缓释资金压力 给房企更多定价空间
2023-08-23 -
安集科技(688019)8月22日主力资金净卖出183.87万元
2023-08-23 -
3000点保卫战将打响,保大保小?
2023-08-23 -
地下城气功师带什么武器_气功带什么武器
2023-08-23 -
信隆健康:截止2023年8月18日股东总数为20,525名
2023-08-23 -
《孤注一掷》有4处删改,票房会破39亿,陈思诚的预言,正在成真
2023-08-22 -
这,是无锡的另一面~
2023-08-22 -
西部黄金:8月21日融资买入314.89万元,融资融券余额1.41亿元
2023-08-22 -
北上消费火爆的逻辑
2023-08-22
- 怎么添加公众号 微信公众号怎么添加公众号
- 泰国11个政党宣布联盟组建新政府 具体什么情况?
- 三变科技:目前公司经营情况正常
- 资金连续11日净流入!5GETF(159994)上涨0.26%
- 第二十三届投洽会将举办中美省州研讨会,聚焦绿色发展
- 中国商联直播电商委吴卫红会长走访调研网盛大厦及热度电商 天玑会展 考古加 芝士文化等杭州直播电商企业
- 中国医师节丨医路漫漫,愿你坚守初心,不负白衣荣光
- 考古“大咖”走进博物馆,历史与文物的画卷徐徐展开……
- 热带风暴“希拉里”将登陆美国加州 可能引发强风及洪水
- 后宫甄嬛传网游游戏 后宫甄嬛传网盘下载
- 斗破苍穹:魔神崛起!美杜莎女王cosplay,揭秘深邃诱惑的惊人力量!
- 旗下药店违规使用医保基金!益丰药房的25亿可转债遭搁浅