摘要:人名的识别是自然语言处理中的一项基本任务,汉语文本中少数民族人名的识别对汉语的自动分词等有重要意义。人名识别问题的处理方法大体有三种,基于统计的方法、基于规则的方法和这两种方法相结合的混合方法。目前有较多的汉语人名识别的研究,并且取得了比较不错的效果,但是汉语文本中少数民族人名识别的研究并不多。汉语文本中的少数民族人名大多是音译或意译出来的,这点类似于汉语文本中的外文译名,所以汉语文本中少数民族人名的识别可以参照外文译名的识别。
本文首先简单对现有中文人名识别的研究现状和部分少数民族人名译名识别的研究方法进行介绍,然后使用基于条件随机场(Conditional Random Fields,CRF)的方法进行实验。实验首先收集大量含有少数民族人名的中文语料,然后对其中的少数民族人名进行标注。随后使用分词系统对已标注语料采取分词处理并进行语料格式预处理。然后使用条件随机场(Conditional Random Fields,CRF)模型训练。通过训练语料找出少数民族人名和上下文特点。然后依据少数民族人名及其上下文特点对汉语文本中少数民族人名的边界做定位。最后用未标注的语料来测试,实验结果表明,正确率达到了93.38%,召回率达到78.88%,F值为85.52%。
关键词:条件随机场;少数民族人名;命名实体识别;自然语言处理
目录
摘要
Abstract
1 绪论-1
1.1 研究背景-1
1.2 研究现状-1
1.3 少数民族人名识别的困难-2
1.4 本文主要工作-2
2 准备工作与条件随机场(CRF)-4
2.1 准备工作-4
2.2 条件随机场(CRF)-4
2.2.1 条件随机场(CRF)算法-4
2.2.2 条件随机场(CRF)的定义-4
2.2.3 条件随机场的应用及简单评价-5
3 基于CRF的汉语文本中少数民族人名的识别-6
3.1 语料处理-6
3.2 模型的建立学习和测试-7
3.2.1 特征函数及其选择-7
3.2.2 特征模版与测试-8
3.3 测评标准-10
4 实验结果及分析-12
4.1 实验工具和结果-12
4.2 结果分析-12
结 论-13
参 考 文 献-14
致 谢-15