以人工冒充智能把球打飞了

9月20日,用户名为“Bell Wang” 的王同学在某知识问答平台上发表《科大讯飞,你的AI同传操(qi)作(zha)能更风骚一点吗》一文,吐槽了自己“被 AI”的经历。

这位王同学在担任某次国际会议同声传译的过程中,发现自己及同伴的翻译成果在不知情的情况下被科大讯飞以文字形式上传在屏幕上,还使用电子音播放翻译文本,在某平台进行直播。

王同学“忍不了”,发布了自己用手机录下的视频证据。事情迅速发酵,科大讯飞于21日下午发表回应:个别同传译员对于科大讯飞存在误解,我们认为仅仅是对会议服务方面的分工沟通了解不清。

有网友调侃:没被发现就是 AI,被发现了就是误会。

科大讯飞是否存在主观“欺诈”难以判断,但细数一下,这些说不清道不明的“人工”冒充“智能”案例,还真不少。

误会还是造假?

科大讯飞可能自己也没想到,找的同声传译工作人员居然在知乎上有个固定专栏。

这让寻找中国创客想起了几年前的一个段子,某互联网公司在招聘时明确表示:有公众号的不要。

▲“Bell Wang”网帖截图。

▲“Bell Wang”网帖截图。

事情的经过是这样的。据王同学在网帖中描述,9月20日,他来到2018创新与新兴产业发展国际会议(IEID)的高端装备技术与产业分会做现场同传。

当看到会场大屏幕两侧写着“讯飞听见”四个字的时候,他就有点心烦:自己不会也要遇上“被 AI” 的事了吧?

会议开始以后,现场屏幕上的实时字幕分为两部分,右边是对外文演讲嘉宾的英文实录,左边是中文翻译结果。

▲字幕分为英文、中文两部分。

▲字幕分为英文、中文两部分。

王同学发现,当日本籍嘉宾上台演讲时,其带有口音的英语并不能被机器很好识别,右侧的屏幕上满是发音差不多但不能构成实际意义的单词。但在左侧,屏幕上却是准确的中文翻译。

为什么明明识别错了英文原文,却能给出准确的中文答案?王同学越看越觉得,翻译部分是直接转译的自己同伴人工翻译的内容。

尤其当搭档在英译汉时说出“步态”一次,屏幕上却错误识别为“不太”;王同学自己再汉译英时说了“Davos Forum”(达沃斯论坛),屏幕上却出现发音差不多的“Devils Forum”(魔鬼的论坛)后,王同学越加确信,现场大屏上的字幕并非科大讯飞机器翻译,而是在自己和同伴翻译内容的基础上,进行了“语音转文字”。

当天下午的发现,让王同学更加火大。

他在一个名为“知领直播”的平台上看到,该平台声称“引入科大讯飞智能语音技术”“智能翻译”,但是,对当天的会议进行同传直播的翻译文本是他和同伴的翻译成果,而且播放的语音是合成的机械音。

▲知领直播页面截图。

▲知领直播页面截图。

“所谓的智能翻译,就是按照文本读,而且是不管语义群分割的,文字显示也并不是语义群同时显示或锁定的,那就很显然是在识别语音,而不是从根据原文在翻译。”王同学在网文中称,这是“赤裸裸的欺骗”。

21日下午7时许,科大讯飞作出回应:考虑到专业技术背景及口音等原因,这次2018创新与新兴产业发展国际会议,科大讯飞只提供会议转写上屏服务,并未提供翻译服务。至于转写译员翻译结果并在会场大屏呈现、在直播中合成识别结果,皆是“应主办方要求”。

科大讯飞表示,“个别同传译员对于科大讯飞的误解,我们认为仅仅是对会议服务方面的分工沟通了解不清”。

▲科大讯飞回应全文。

▲科大讯飞回应全文。

科大讯飞方面再次强调其提出的“人机耦合”概念:科大讯飞发展AI无意于替代任何职业和岗位,我们也多次强调“人机耦合”共同进步的立场和产品追求。

对于“人机耦合”概念,科大讯飞方面给出的解释是:由机器提供语音转写和翻译结果给同传参考,辅助同传降低工作强度并提升效率。

“碰瓷”的AI公司

科大讯飞蓄意造假?

似乎也不是。

就在几天前的9月17日,科大讯飞董事长刘庆峰还在世界人工智能大会开幕式上特意强调:凡是大家看到翻译屏幕上两个语种同时出现的,就是机器翻译的;翻译屏幕上只有一个语种的,就是人机耦合的。

刘庆峰称:“世界机器人大会的十几个嘉宾演讲中,有人工同传的语音转写也有机器全自动转写。除了三个是由人工同传的语音转写,探索人机耦合模式的,其余的全部是机器全自动转写的。”

知乎某网友将科大讯飞的态度概括为“三不”政策:不主动,不拒绝,不负责。对于大众将精准的翻译结果误解为科大讯飞智能翻译所为,讯飞方面似乎也是乐见其成的。毕竟这种误解可以带来实际的好处。

有智能语义领域创业者告诉寻找中国创客,目前国内包括科大讯飞、搜狗、百度、腾讯在内的几大研究智能语音翻译的公司,在技术水平方面并没有明显差异,这个时候,谁在大众眼中的准确度更高,谁就可能取得先机。

科大讯飞技术上可以做到AI同传吗?

似乎也不行。

就连科大讯飞董秘江涛也在这次回应中承认:“讯飞从没讲过AI同传的概念,始终强调是人机耦合的模式。”

有认证为阿里云的技术人员在网上科普AI同传的几个技术环节:

1.ASR(即自动语音识别)识别语音流(易出现误差,依赖于方言/语种模型与其强化学习程度);

2。同步进行NLP自然语言分析(断句,分词等)形成文本(普通出现误差);

3。翻译文本(小可能出现误差);

4。翻译后的语音内容展示字幕或者TTS(Text To Speech,将文本转换成语音)进行语音播报(小可能出现误差)。

在此次事件中,科大讯飞做的只有最后一个环节:将翻译后的语音内容上传到屏幕,或者合成为电子音。虽然这一过程也涉及识别同传人员的语音,但因为同传人员发音较为标准,这一过程误识别的概率大大减小(但仍然出现了,比如上文提到的将“步态”识别为“不太”)。

智能语音公司Rokid创始人Misa告诉寻找中国创客,人工智能在自然语言分析、文本翻译、TTS 方面的问题并不大。

但由于存在口语习惯(比如多语言混合、语法省略)、口音、现场环境、专业术语等问题,人工智能在语音识别方面还存在一些误差,而且这一现状目前还难以解决,运用统计方法难以覆盖所有可能。“人机协作的概念是没错的,只是一开始要说清楚,别忽悠大家。”