文章资料-库博笔记 游客
读完34版圣经后,翻译AI终于学会了转换文风 |
【9725】by1 2018-11-20 最后编辑2018-11-20 16:48:18 浏览903

领研网2018/11/12 更新

论文标题:Open Access Evaluating prose style transfer with the Bible

作者:Keith Carlson,Allen Riddell,Daniel Rockmore

期刊:Royal Society Open Science

发表时间:2018/10/24

数字识别码:10.1098/rsos.171920

机器学习

人工智能

AI

机器翻译

如今机器翻译基本能够自如应对不同的语言,在文风转换方面却进步缓慢,这主要是因为缺乏合适的语料库。而达特茅斯研究人员发现,用圣经训练机器或许是个好办法。


来源:Pixabay


编译:阿金

审校:戚译引


一本古老的神圣书籍给研究人员带来了新的启示。上月,来自美国达特茅斯学院(Dartmouth College)的研究人员在《皇家社会开放科学》(Royal Society Open Science)发表论文,介绍他们如何用圣经来训练机器执行文风转换任务,从而对不同人群输出不同语言风格的文本。创建并行数据集来训练机器翻译本身并不新鲜,但这是研究人员第一次将宗教典籍运用到这类研究中。


近几年来,随着机器学习技术的不断提升,计算机越来越精于翻译之道,当然目前它还无法与人类的翻译能力相提并论。人类能够捕捉到语言中的细微差别,根据不同的受众,将文本翻译或转述成不同的效果,顺畅地交流思想。


英语专业的学生肯定熟悉一种练习:文风转换(style transfer),或者说文风改述(stylistic paraphrasing ),即不改变句意,用不同的词语重新改写句子。对于给定的同一段信息,即使用同一种语言描写,也都存在不同的语句表达方式,比如“吃了么您哪”和“您吃过饭了吗”。我们可以使用不同的“文风”来传递本质上完全相同的信息,所以对于写下的每一句话,我们考虑的不仅仅是其中的语义内容,还有表达方式或语言风格。不同的用词可以表达不同的礼貌程度、与读者的熟悉程度,同时也展现作者的文化背景,从而让某一类读者更容易接受文章内容。



来源:Pixabay


如今的网络翻译工具能够在不同语言之间自由切换,但是能够进行文风转换的工具研发却进展缓慢。这个问题明显与自然语言生成系统的创建密切相关。只有当输出的语言能够被特定的受众理解并接受,翻译、改述、总结和其他方式生成的语言才变得有意义。这就要求研究人员在所生成的语言中着重强调语言风格的简易、正式程度以及其他风格特征。这些系统往往要求并行数据来训练及测试其结果,然而,并行文风转换的语料库资源供不应求。虽然近期有少数研究使用莎士比亚戏剧文本来进行训练,但是由于这类研究需要庞大而优质的数据,研究人员仍举步维艰。


不过,达特茅斯大学的研究团队在一个意想不到的地方找到了丰富的宝贵语料库,那就是圣经。凯斯·卡尔松(Keith Carlson)是该论文的通讯作者,同时也是达特茅斯学院的在读博士,他介绍:“英文版的圣经历经多次翻译,被转换成不同的书写风格,因此成为了研究文风转换的资源宝库。”每版圣经包含超过 31000 条经文,研究人员利用这些经文为机器学习训练数据集创建了 1500 多万条独特成对的源经文和目标经文。经过上千万条不同版本经文的“洗礼”,研究人员期望算法最终能够针对不同的受众,成功将文本转换成不同风格。


研究团队还收获了一个额外福利:感谢经书卷、章、节数字的一贯的使用规范,圣经已经有了完整的索引编号。由此一来,研究人员可以将不同版本之间的文本有序组织起来,让不同版本的文段一一对应,而不必担心自动配对方法可能引起的对齐错误风险。参与本项研究的达特茅斯学院的计算机学教授丹尼尔·洛克莫尔(Daniel Rockmore)评价说:“圣经是完成我们研究任务的‘神圣’数据库。数世纪以来,人们不断地组织和编排圣经文本,所以我们不用担心不那么可靠的对齐算法了。”


研究人员使用了 34 种风格迥异的圣经版本,其语言的复杂程度各不相同,有古雅的“英王钦定本”(King James Version),也有对读者词汇量要求很低的“基础英语版本”(Bible in Basic English)。这些文本被输入到两种算法中,分别是统计机器翻译系统“Moses”和神经网络机器翻译系统“Seq2Seq”。


通过利用不同的圣经版本来训练程序,系统最终将能够把任何文本转换成适合不同受众的文风。“文本简化只是风格转换的一种特殊类型,而我们系统的目标是生成跟原文意思完全一致的文本,但是用不同的词语来表述。”卡尔松总结道。比如说,也许有一天机器可以选取《白鲸记》的一段,将其“翻译”成符合年轻读者口味的语言风格,或者非英语母语读者,抑或是其他任何群体。


达特茅斯学院在计算机科学方面有着光荣的创新历史。“人工智能”这个词汇就是 1956 年在达特茅斯举办的一次学术会议上第一次提出的,那届会议还创造了人工智能研究学科。其他的创新发明还包括 BAISC——第一代初学者通用指令编程语言,以及为现代操作系统贡献极大的达特茅斯时间共享系统。