论文实验

作者汇报了他的方法在AMR语义分析和AMR转文本方面的表现,转换的语言包括德语(DE),西班牙语(ES)和意大利语(IT)。这个模型是在英语数据集上进行的预训练和微调,但是DE,ES和IT都是在目标数据集上做的评估。

实验设置

预训练数据集

德语:WMT14英转德数据集,在预处理之后包含3.9M对句子;
西班牙语和意大利语:作者使用的是德语的并行数据集,包含1.9M对英翻西班牙和1.9M对英翻意大利句子;

微调数据集

作者利用了英语AMR2.0,其中包含了用于训练,优化和验证的36521,1368和1371个英语AMR。作者使用预训练数据集中训练得出的BPE模型将所有象征分割成子单词。

预训练和微调模型设置

作者使用了同样的超参设置去训练所有的模型,在预训练和微调时借助了TRM模型,编码器和解码器的数目都是6。嵌入式和隐层的尺寸都是512而且反馈的神经网络的神经元数量是2048。作者总共训练了250K(10K)个epoch并且每10K(1K)个步长保存一次参数。

评估

作者在LDC2020T07数据集上进行的评估, 这是一个包含了人工翻译的全集,从AMR2.0来的1371个句子是其子集,其中有德语,西班牙语,意大利语和中文。作者只评估德语,西班牙语和意大利语在EUROPARL上训练的数据。作者利用BLEU对于AMR语义分析进行性能评估。

讨论

作者通过与基准系统的比较自己模型的性能。

Baseline_scratch

作者通过零散的数据集在微调模型上直接训练了模型。以德语AMR语义分析为例,作者训练了模型在他的微调数据集(F^{DE}F^{AMR})得到了$Baseline_{scratch}$。

Baseline_pre-trained

作者从大规模的silver数据集上训练了模型,以德语AMR语义分析为例,作者首先通过预训练得到(\Gamma^{DE}\Gamma^{AMR}),再在预训练模型上进行微调得到(F^{DE}F^{AMR})。

实验结果

XLPT-AMR系列即作者的模型结果,可以看到相较于基准模型都有了较大的提升,而且与前人的工作相比也有了较大的提高。

同时图中数据也显示出了在语义分析和文本生成方面普通的预调训练也极大的提高了模型能力,但是普通的预调训练表现还是没有MTL预调训练好。

保存其他模型预训练的表现对于提高模型的精确度有很重要的作用。比较XLPT-AMR_one4all和XLPT-AMR_targeted,其表现了选择相关度高的预训练模型,除了西班牙语的文本转换任务,其余的任务可以很大程度上提高模型的表现能力。

XLPT-AMR_TS模型有最好的表现,这说明了使用teacher-student去引导解码任务可以帮助student任务,这是因为teacher模型比student模型表现的更好。

作者详细比较了AMR语义分析,上图体现了除了右边红框的数据,AXPT-AMR_TS表现得最好。就像英语的AMR语义分析一样,模型预测Reentrancies的表现都不太好,而且模型预测Negations也有较大的问题。

分析

主要讨论如下3个问题:

1:在基于teacher-student的MTL微调任务中,teacher模型去引导student模型时会有怎样的表现?

2:这两种机器翻译在预训练中会有怎样的影响呢?

3:作者利用英语作为过渡语言因为它庞大的数据集,那么这个英语AMR语义分析和AMR转文本实际的能力怎么样呢?

• First, what is the performance of teacher models when we use teacher models to guide student ones in teacher-student-based MTL fine-tuning?
• Second, what is the effect of the two machine translation tasks in pre-training?
• Third, in our approach we take English as pivot language by taking advantage of large scale English-to-German (or Spanish, Italian) dataset. What is the performance of English AMR parsing and AMR-to-text generation?

问题1


可以看出有了teacher模型的引导之后student模型的表现都有了较大的提升。

问题2

以德语为例,可以看出将机器翻译任务加进预训练是很有必要的。

问题3


基于预训练模型,作者将有目标的MTL预调任务作为描述。对于英语AMR语义分析,作者选择将英语分别翻译成德语,西班牙语,意大利语作为辅助的微调任务。当对于英语的测试生成,作者选择了上述三种语言转换成英语作为辅助微调任务。

结论

在这篇文章中,作者提出了一种跨语言的预训练方法,凭借多任务学习为了零次AMR语义分析和AMR转文本。在英语AMR和英语转化成X的数据集上,作者预训练了模型在3种相关的任务上,包括AMR语义分析,AMR转文本和机器翻译。作者同时也探索和比较了4种不同的预训练方法。通过最后的实验也表明作者的方法提高了目前的技术。

参考文献

[1]XLPT-AMR: Cross-Lingual Pre-Training via Multi-Task Learning for Zero-Shot AMR Parsing and Text Generation
[2]Transformer模型详解
[3][HugBert03]最后一英里:下游NLP任务的微调
[4]Multi-task Learning(Review)多任务学习概述
[5]Teacher Student Model
[6]零次学习(Zero-Shot Learning)入门