XLPT-AMR: Cross-Lingual Pre-Training via Multi-Task Learning for Zero-Shot AMR Parsing and Text Generation

注:以下英翻中均为我自己理解之后的翻译,如有不恰当之处欢迎在评论区指出

名词缩写

AMR: Abstract Meaning Representation 抽象语义表示
MTL: multi-task learning 多任务学习
NLP:Natural language processing 自然语言处理
TRM:Transformer模型
BLEU:bilingual evaluation understudy 双语互译质量评估辅助工具

概要

抽象语义研究现在相较于其他NLP研究还没有那么成熟,但是现在英语的AMR数据集和英语翻译成其他语言的数据集日益完善完善,在这个条件下,作者提出了一种全新的可用于零次学习的AMR语义分析和AMR文本转换的跨语言的多任务学习方法。同时,基于恰当的预训练模型,作者探索了4种不同的微调方式:普通微调,one-for-all多任务微调,有目标多任务微调,teacher-student多任务微调对于上述方法的影响。实验证明,作者的方法在不同验证集下使用不同的微调方法都得到了较大的提升。

介绍

语言转换的主要过程如下图所示,需要借助中间工具AMR图将不同语言进行相互转换:

示例来说,作者将英语转换成德语,西班牙语和意大利语,并且分别分析在预训练和微调过程的过程和结果。

这一部分主要指出了作者做出了如下贡献:

1:针对零次学习和AMR文本生成方法,作者提出了一种有效的跨语言预训练方法;

2:探索和比较了不同的预训练方法,提出了一种实验所用数据集里能获得最好效果的teacher-studen-based预训练方法;

3:评估了基于AMR的零次学习方法,并且证明自己的方法很大程度上提高了目前的技术。

• We propose an effective cross-lingual pre-training approach for zero-shot AMR parsing and AMR-to-text generation. Our pre-trainedmodels could be used for both AMR parsing and AMR-to-text generation.
• We explore and compare different fine-tuning methods. We also propose a teacher-student-based fine-tuning method that achieves the best performance.
• We evaluate our approach in three zero-shot languages of AMR and our approach greatly advances the state of the art.

相关工作

英语AMR语法分析

AMR语义分析是将句子翻译成直接的、无环的图。根据模型结构的不同,之前的英语的AMR语义分析工作可以被分成若干种类:

1:基于树的方法;

2:基于图的方法;

3:基于转移的方法;

4:seq2seq方法;

5:seq2graph方法;

英语的AMR转文本生成

大部分研究都在着眼于英语的AMR研究,那么其他语言的AMR研究就会相应的减弱一些,因为数据集是需要在研究过程中不断丰富的。最近有学者提出简化版的AMR不单单是只用在英语上,还可以用作跨语言的语义分析。有学者就利用大规模的AMR数据搭建了不同语言之间的桥梁并且获得了巨大的成功,也有学者利用了带注释的英语AMR克服了目标语言数据集不足的问题,还有学者探索了基于预训练过的跨语言模型实现的跨语言的AMR转文本。

Till lately , Damonte and Cohen (2018) demonstrate that a simplified AMR can be used across languages and for the first time they study cross-lingual AMR parsing for languages rather than English. Blloshmi et al. (2020) employ large-scale silver parallel AMR data to bridge the gap between different languages and greatly advance the performance of cross-lingual AMR parsing. Sheth et al. (2021) explore annotation projection to leverage existing English AMR and overcome resource shortage in the target language. Furthermore, Fan and Gardent (2020) explore cross-lingual AMR-to-text based on pre-trained cross-lingual language model (XLM) (Lample and Conneau, 2019).

在这篇文章中,作者为AMR语义分析和AMR转文本设计了一种完善的跨语言预训练模型,并且在预训练时不需要特殊的语言包。

跨语言的预训练

背景

作者的模型是基于Transformer的,在方式上作者使用了Noord和Bos提供的线性化AMR图和AMR图的恢复方法。

跨语言的预训练

因为稀有的德语AMR语义和AMR转文本的数据集,作者以英语作为桥梁,希望能在处理英语数据集的时候获得处理德语相关部分的知识。给定编码器和解码器的数据集(\Gamma^{EN} \Gamma^{DE} ),作者使用一个在带注释的英语AMR2.0上训练得出的英语AMR的语义分析器从语法上分析AMR图上的英语句子,因此获得了一个3维的数据集 \Gamma = ( \Gamma^{EN}\Gamma^{DE}\Gamma^{AMR} )。

之后在这个3维的数据集中,作者提出了凭借多任务学习的跨语言预训练方法,作者考虑了AMR语义分析,AMR转文本和机器翻译这3种任务。

AMR语义分析任务

同时包含了都是在(\Gamma^{EN}\Gamma^{AMR})编码器端的英语数据集和(\Gamma^{DE}\Gamma^{AMR})解码器端的德语数据集。

编码器端是输入,也就是英文语义,解码器端是输出,也就是德语语义。

AMR转文本任务

同时包含英语和德语的AMR转文本。类似于AMR语义分析,英语和德语的AMR转文本都是在silver AMR图上训练得到的( \Gamma^{AMR}\Gamma^{EN})(\Gamma^{AMR}\Gamma^{DE}

机器翻译任务

同时包含在数据集(\Gamma^{EN}\Gamma^{DE})上的英翻德和德翻英任务。

联合多任务预训练

作者利用现有的模型去训练上述的6个数据集,但是在语句前面加上的标记去区分输入和输出。

作者的联合多任务预训练是基于标准的联合多任务预训练,在训练阶段,作者轮流加载上述的预训练数据集,而且根据作者的实验,加载数据集的不同顺序对最终模型的影响是可以忽略的。

联合多任务预训练完成之后即得到了预训练之后的模型,接下来就可以进入微调阶段了。

微调方法

为了微调预训练模型,作者建立了一个从带注释的的英语AMR分出来的微调数据集。给定英语AMR数据集(F^{EN}F^{AMR}),作者使用了英翻德翻译器将英语句子翻译成德语句子,因此获得了3维数据集(F^{EN}F^{DE}F^{AMR})。

因为作者的任务是提升零次学习的AMR语义分析和AMR转文本能力,所以作者最初的微调任务是德语AMR语义分析和AMR转文本,此外在需要的时候作者可以将另外4种微调任务作为辅助任务(英语AMR语义分析,英语AMR转文本,英翻德,德翻英)。

当微调数据集准备好后就可以用不同的方法微调预训练模型。

普通的微调方法

给定一个预训练模型,普通的微调方法就是按照唯一的顺序去训练模型。

on-for-All多任务的微调方法

作者将同时进行6个数据集的微调任务,相关研究已经表明在保证其他任务表现不变的情况下提高初始任务的精度是很重要的。保存不同预训练模型的任务可以看成是将每个预训练任务的正则化,微调的时候,就像联合预训练一样,作者按顺序将预训练数据导入到预训练模型种,最终就可以得到一个所有任务的微调模型。

带目标的多任务学习微调

相较于使用单个模型进行训练,作者选择了相关的预训练模型作为辅助任务的方法。以德语语义分析为例,作者将德转英作为辅助的微调任务,这个辅助的任务可以帮助德语语义分析时在encoder阶段可以更好的捕捉德语语句的语法内容。

Teacher-Student-based多任务学习微调

德语句子数据集的一个需要注意的点就是他是由机器翻译得出的,因此他就会包含较多的噪声,这就会对最终的微调模型的表现产生负影响。作者就提出了一种方法,作者利用英语AMR语义分析去帮助德语AMR语义分析,因为英语AMR分析噪声相对较少一些。

德语AMR语义分析的微调

作者使用(E,G,A)代表英语部分,德语部分,AMR部分,同时使用(e,g,a)作为3个实例。德语AMR语义分析就是(G -> A),作者把英语AMR(E -> A)作为德语AMR的teacher,同时假设从g中取出的目标AMR样本a_{i}应该是和a_{i}在e的AMR的相关部分是相近的。

在这个假设上,利用下图的多级别的交叉熵联合公式,student模型通过在英语AMR应用词语级别的信息可以获得知识:

(e,g,a)属于(E,G,A),也就是(F^{EN}F^{DE}F^{AMR}),也就是英语/德语AMR的语义分析数据,\hat\theta_{E->A}指代已经英语AMR语义分析中学习得到的模型参数,为了将g翻译成a,采用L_{\theta_{G->A}}(a|g)作为对数似然函数,函数J的定义是:

KL(·||·)指代KL两种不同的分布,\nu_{a}是词汇集。

总的来说,在MTL微调中作者使用公式1做了德语AMR微调任务的目标,同时作者使用对数似然函数作为备用的微调任务也就是德翻英的公式。

德语AMR转文本微调

考虑到英转德的表现比德转英更好,作者把英转德当成teacher并且假定在已经得到的部分德语句子g_{<i}中,从a取出来的象征着目标德语的g_{i}应该和e中AMR的相关部分是相近的。

联合训练为了实现德语AMR转文本目标所用的目标函数跟上述为德语AMR语义分析的目标函数相似。