您现在的位置是:首页 > 要闻 > 正文

脸书的新人工智能可以直接将语言相互翻译

发布时间:2021-08-24 20:07:52来源:

导读 无论您从美洲、巴西、婆罗洲还是法国登录,脸书都可以使用自动机器翻译将在其平台上发布的几乎所有书面内容翻译成当地语言。事实上,仅脸书

无论您从美洲、巴西、婆罗洲还是法国登录,脸书都可以使用自动机器翻译将在其平台上发布的几乎所有书面内容翻译成当地语言。事实上,仅脸书的“新闻提要”每天就提供约200亿份译文。然而,这些系统通常使用英语作为中间步骤——即从汉语到法语的翻译实际上是从汉语到英语到法语的翻译。这是因为往返于英语的翻译数据集非常大,而且广泛可用,但将英语放在中间会降低整个翻译的准确性,使整个过程变得比必要的更复杂和繁琐。这就是为什么脸书AI开发了一个新的MT模型,可以直接在两种语言(中文到法语和法语到中文)之间进行翻译,而不使用英语,比基于BLEU指数的以英语为中心的模型好10分。

Facebook的新AI可以将语言直接相互翻译

脸书AI研究助理Angela Fan告诉Engadget:“最大的挑战其实是如何利用现有的翻译系统,真正满足全世界人民的需求。”所以,你在翻译成人们真正想要的所有语言和方向。例如,世界上许多地区的人说许多语言,其中没有一种是英语,但现有的翻译系统严重依赖纯英语数据。她指出,在脸书每天以160种语言发表的数十亿篇文章中,有三分之二是用英语以外的语言撰写的。

脸书称之为M2M-100,这是第一个可以直接在任何一对100种语言之间来回翻译的多语言机器翻译模型(MMT)。总的来说,FBAI已经建立了一个庞大的数据集,其中包含100种语言的75亿个句子。脸书博客周一表示,研究团队利用这一点训练了一个具有超过150亿个参数的通用翻译模型,“它可以从相关语言中获取信息,并反映更多样的语言和形态脚本”。

因此,脸书必须使用各种新颖的技术从世界各地收集大量的公共数据。范解释说:“其中许多实际上是基于我们多年来在的研究中所做的工作,就像我们今天把所有不同的乐高积木放在一起构建系统一样。”

首先,该团队使用CommonCrawl来维护一个开放的Web爬网数据存储库,以从网络中收集文本样本。然后,他们开始使用快速文本来识别文本中使用的语言。FastText是脸书几年前开发并开放的文本分类系统。“它基本上是做一些测试,并试图确定所使用的语言,”范说。“因此,我们将网络上的一堆文本分成所有这些不同的语言,然后我们的目标是确定要翻译的句子。”

她继续说道:“传统上,人们使用人工翻译来创建翻译数据。”“这在规模上很难,因为例如很难找到会说英语和泰米尔语的人,但更难找到会说法语和泰米尔语的人,因为非英语翻译仍然是一个需要改进的领域。”

为了大规模挖掘必要的数据,范的团队非常依赖激光系统。她说:“它阅读句子,获得文本,并创建文本的数学表示,从而将具有相同含义的句子映射到相同的思想。”“因此,如果我有一个中文和法文的句子,他们说的是同一个句子,他们会有一点重叠——就像文氏图一样——重叠的区域就是我们认为与句子对齐的文本。”

当然,并不是所有的语言都有大量的书面内容可以在互联网上获得。在这种情况下,范的团队转向了单语数据,即只用一种语言编写的数据。范老师用一个汉译法的例子来解释:“因此,如果我的目标是把中文翻译成法文,但由于某种原因,我的翻译质量不好,那么我会通过获取法文的文本单语数据来努力改善这一点。我想做的是对系统进行反向训练:我会从法语切换到汉语。例如,我从维基百科上提取所有法语,然后翻译成中文。”

范接着说,这样做会产生大量机器生成的“合成”数据。“因此,我基于翻译的法语创建了这个合成中文,然后再次将其添加到正向模型中。因此,我没有从中文转到法语,而是有中文和我的补充来合成中文,都是法语。而且因为这会在输入和输出端增加很多新的例子,所以模型会更强大。”

这会导致数字塔鱼在世界上6200多种口语之间的无损翻译吗?范指出,项目的最终成功取决于AI可用的资源数量。法语、汉语、德语、西班牙语和印地语等主要语言都有丰富的资源。“人们用这些语言在网上写了很多文字,”范指出。“他们确实可以帮助很多数据,我们的模型可以利用这些数据变得更好。”

她继续说道:“我个人认为,在资源非常少的语言中,我们可能需要改进许多领域。”“对于非洲语言,我们非常擅长斯瓦希里语和南非语。我们可以在祖鲁语等语言上做很多改进,这些语言还有其他我们需要面对的研究挑战。”

脸书正在发布数据集、模型、培训和评估设置,作为研究社区的开源,以帮助刺激进一步的发展。公司还计划继续独立开发该系统,最终将该技术应用于日常运营。

标签:

上一篇
下一篇

最新文章