摘要:随着互联网不断发展,信息网络化更加的明显。 越来越多的文本信息的出现,让很多的机关单位、公司在处理这些文本信息更加的困难。一方面, 在网络上每天都有很多有价值的文本信息不断的出现; 而另一方面, 我们想要获取这些有价值的文本信息,但是由于技术的落后,获取信息的速度和量不能够达到我们理想的标准。
对于文本信息的获取,现在出现了很多识别方法,而主要是别的对象包括了人名、地名和机构名。其中机构名称泛指机关、团体或其他企事业单位,包括学校、公司、医院、研究所和政府机关等的名称。机构名称是专有名词的一个子集,数目也特别庞大。机构名称无论是出现还是更新淘汰都特别的快,所以相比较于人名地名,机构名的识别工作量大,识别率低,达不到人们的期望。
本文中使用的CRF建模进行机构名的识别,开始时利用了大量时间搜寻大量关于机构名的中文文本句子,并且将其中的机构名进行标注。然后我们利用分词软件将已搜集的语料进行分词,再利用做的软件将已分好词的语料进行格式预处理,将词、词性和机构名的判断标识分为段落格式分列表示以便CRF模型可以合理读取。再利用CRF进行建模、训练,建立一个训练模型。最后使用CRF模型对我们准备时找到的测试语料进行测试。该方法取得了接近96%的召回率和准确率,即使在开放测试中,准确率也高达83%。
关键词:条件随机场;分词;格式预处理;机构名
目录
摘要
Abstract
1 绪论-1
1.1研究目的与意义-1
1.2国内外中文文本中机构名识别的现状-1
1.3论文组织结构-2
2 CRF的介绍和工作原理-3
2.1 CRF简介-3
2.2 CRF与其他方法对比-3
2.3 CRF的基本原理-4
2.4 CRF的使用方法-5
3 CRF的中文文本中机构名的自动标注研究-6
3.1使用CRF识别中文机构名的基本步骤-6
3.2语料收集和数据预处理-6
3.3 CRF建模-7
3.4 CRF测试-8
3.5本章小结-9
4实验结果与分析-11
4.1测试准确率、召回率以及F值-11
4.2实验结果-11
4.3实验分析-11
5 实验结果及分析-13
结 论-14
参 考 文 献-15
致 谢-16