摘要:关系抽取是自然语言处理中的核心任务,也是各种下游应用中的关键组件。现实情境下的数据往往相当嘈杂,制作一份高质量的监督数据也过于昂贵,于是远程监督方法应运而生,基于远程监督数据集下的关系抽取算法也开始不断被提出与改进。远程监督可以快速有效地标记用于关系抽取的数据,但是会受到噪声标记的干扰。近期的研究主要是利用包级别的注意力机制来缓解噪声标记数据对整体训练的干扰。
本文的模型将生成对抗的思想引入关系抽取任务。模型有判别器与生成器两个主要结构,生成器的目的是从所有被标记的正样本中找出真正的阳性样本,判别器则是去判断生成器的生成样本是否真实。生成器生成的高置信度样本会被当作判别器的负样本去训练,低置信度样本则反之。利用相互竞争的对抗性训练方法,当判别器的辨别能力下降到最低时,模型可以得到最佳的生成器,此时的生成器将有足够的性能从远程监督的正样本集中识别出真正的阳性样本,剔除假阳性样本。
本文从损失函数、随机采样方法以及训练策略三方面对原模型进行了改进。实验结果表明,新的模型在各种远程监督关系抽取算法中都得到了比之以往更好的结果。
关键词: 关系抽取; 对抗训练; 远程监督; 降噪
目录
摘要
Abstract
1引言4
2方法论 5
2.1训练数据 6
2.2预训练策略 6
2.3筛选高质量负样本 7
2.4分类器损失函数 .7
2.5对抗性训练 7
2.5.1生成器 .8
2.5.2判别器 .9
2.6生成器降噪 10
3实验.10
3.1实验配置 11
3.2对抗性训练过程 .11
3.3对远程监督关系抽取算法的性能影响 12
3.4讨论.13
4结论.14
参考文献