您现在的位置是:首页 > 要闻 > 正文
脸书的新人工智能可以直接将语言相互翻译
发布时间:2021-08-24 20:07:52来源:
无论您从美洲、巴西、婆罗洲还是法国登录,脸书都可以使用自动机器翻译将在其平台上发布的几乎所有书面内容翻译成当地语言。事实上,仅脸书的“新闻提要”每天就提供约200亿份译文。然而,这些系统通常使用英语作为中间步骤——即从汉语到法语的翻译实际上是从汉语到英语到法语的翻译。这是因为往返于英语的翻译数据集非常大,而且广泛可用,但将英语放在中间会降低整个翻译的准确性,使整个过程变得比必要的更复杂和繁琐。这就是为什么脸书AI开发了一个新的MT模型,可以直接在两种语言(中文到法语和法语到中文)之间进行翻译,而不使用英语,比基于BLEU指数的以英语为中心的模型好10分。
脸书AI研究助理Angela Fan告诉Engadget:“最大的挑战其实是如何利用现有的翻译系统,真正满足全世界人民的需求。”所以,你在翻译成人们真正想要的所有语言和方向。例如,世界上许多地区的人说许多语言,其中没有一种是英语,但现有的翻译系统严重依赖纯英语数据。她指出,在脸书每天以160种语言发表的数十亿篇文章中,有三分之二是用英语以外的语言撰写的。
脸书称之为M2M-100,这是第一个可以直接在任何一对100种语言之间来回翻译的多语言机器翻译模型(MMT)。总的来说,FBAI已经建立了一个庞大的数据集,其中包含100种语言的75亿个句子。脸书博客周一表示,研究团队利用这一点训练了一个具有超过150亿个参数的通用翻译模型,“它可以从相关语言中获取信息,并反映更多样的语言和形态脚本”。
因此,脸书必须使用各种新颖的技术从世界各地收集大量的公共数据。范解释说:“其中许多实际上是基于我们多年来在的研究中所做的工作,就像我们今天把所有不同的乐高积木放在一起构建系统一样。”
首先,该团队使用CommonCrawl来维护一个开放的Web爬网数据存储库,以从网络中收集文本样本。然后,他们开始使用快速文本来识别文本中使用的语言。FastText是脸书几年前开发并开放的文本分类系统。“它基本上是做一些测试,并试图确定所使用的语言,”范说。“因此,我们将网络上的一堆文本分成所有这些不同的语言,然后我们的目标是确定要翻译的句子。”
她继续说道:“传统上,人们使用人工翻译来创建翻译数据。”“这在规模上很难,因为例如很难找到会说英语和泰米尔语的人,但更难找到会说法语和泰米尔语的人,因为非英语翻译仍然是一个需要改进的领域。”
为了大规模挖掘必要的数据,范的团队非常依赖激光系统。她说:“它阅读句子,获得文本,并创建文本的数学表示,从而将具有相同含义的句子映射到相同的思想。”“因此,如果我有一个中文和法文的句子,他们说的是同一个句子,他们会有一点重叠——就像文氏图一样——重叠的区域就是我们认为与句子对齐的文本。”
当然,并不是所有的语言都有大量的书面内容可以在互联网上获得。在这种情况下,范的团队转向了单语数据,即只用一种语言编写的数据。范老师用一个汉译法的例子来解释:“因此,如果我的目标是把中文翻译成法文,但由于某种原因,我的翻译质量不好,那么我会通过获取法文的文本单语数据来努力改善这一点。我想做的是对系统进行反向训练:我会从法语切换到汉语。例如,我从维基百科上提取所有法语,然后翻译成中文。”
范接着说,这样做会产生大量机器生成的“合成”数据。“因此,我基于翻译的法语创建了这个合成中文,然后再次将其添加到正向模型中。因此,我没有从中文转到法语,而是有中文和我的补充来合成中文,都是法语。而且因为这会在输入和输出端增加很多新的例子,所以模型会更强大。”
这会导致数字塔鱼在世界上6200多种口语之间的无损翻译吗?范指出,项目的最终成功取决于AI可用的资源数量。法语、汉语、德语、西班牙语和印地语等主要语言都有丰富的资源。“人们用这些语言在网上写了很多文字,”范指出。“他们确实可以帮助很多数据,我们的模型可以利用这些数据变得更好。”
她继续说道:“我个人认为,在资源非常少的语言中,我们可能需要改进许多领域。”“对于非洲语言,我们非常擅长斯瓦希里语和南非语。我们可以在祖鲁语等语言上做很多改进,这些语言还有其他我们需要面对的研究挑战。”
脸书正在发布数据集、模型、培训和评估设置,作为研究社区的开源,以帮助刺激进一步的发展。公司还计划继续独立开发该系统,最终将该技术应用于日常运营。
标签:
猜你喜欢
- 今日消息 普京会见俄航新掌门:公司存在问题,国家正努力支持,已拨款500亿卢布
- 今日消息 大立科技:拟收购控股子公司大立微电子剩余37.6%股权
- 今日消息 荣晟环保:与陕科大就芳纶纸基新材料项目建立战略合作关系
- 今日消息 东尼电子:汇兑收益增加,上半年归母净利润同比涨320.76%
- 今日消息 蔚来遭灰熊做空后续:独立内部调查实质性完成,报告相关指控均无事实依据
- 今日消息 腾讯控股:今日回购108万股,耗资约3.5亿港元
- 今日消息 香港金管局对德国商业银行香港分行处以600万港元罚款
- 今日消息 绿城中国李骏:绝对能完成保底任务3100亿
- 今日消息 多氟多:拟与珠海赛纬合资公司,拟规划建设1万吨/年六氟磷酸锂生产线、5000吨/年双氟磺酰亚胺锂生产线
- 今日消息 江南水务:拟1274万元收购高源公司100%股权并1.38亿元实缴注册资本
最新文章
- 今日消息 Meta旗下VR平台Horizon副总裁将离职,主要负责元宇宙相关研发
- 今日消息 天津昨日全域核酸检测结果已出,共发现20例核酸阳性感染者
- 今日消息 甘肃8月27日新增无症状感染者21例
- 今日消息 美国外卖平台DoorDash发生数据泄露事件,部分客户和司机信息被读取
- 今日消息 山东德州新增本土无症状感染者4例
- 今日消息 陕西8月27日新增本土确诊13例、无症状感染者44例
- 今日消息 内蒙古8月27日新增本土确诊病例4例、无症状感染者3例
- 今日消息 捷克众议院批准芬兰和瑞典加入北约
- 今日消息 浙江8月27日新增本土阳性1例,为社区筛查发现
- 今日消息 俄罗斯将开始为匈牙利扩建核电站
- 今日消息 江西8月27日新增本土无症状感染者24例
- 今日消息 河南8月27日新增本土确诊2例、无症状52例
- 今日消息 广东8月27日新增本土确诊12例、无症状4例、无症状转确诊1例
- 今日消息 新疆维吾尔自治区8月27日新增本土确诊4例、无症状57例
- 今日消息 北京文化:2022上半年净亏损收窄至2516万,营业成本同比减少98.32%
- 今日消息 黑龙江8月27日新增本土确诊病例1例、无症状7例
- 今日消息 重庆8月27日新增本土确诊12例、无症状7例
- 今日消息 海南8月27日新增本土确诊70例、无症状125例
- 今日消息 北京8月27日新增2例本土确诊病例、1例本土无症状感染者
- 今日消息 山西8月27日新增本土确诊病例9例、无症状感染者2例
- 今日消息 内蒙古二连浩特新增阳性感染者5人,全域继续实行静默管理
- 今日消息 天津西青多地调整为高、中风险区,精武镇、李七庄街实施全域静态管理
- 今日消息 山东8月27日新增本土无症状感染者2例
- 今日消息 西藏日喀则8月27日新增本土新冠病毒感染者144例