摘要:中文分词,就是由自动为词加入分隔符或打上标记,将一段中文文本中的词根据其具体的含义分隔开,实现正确或合理的断句,准确地表达意思。我们可以用自身现有的语言知识来分辨中文文本中的词与单字,而借助计算机实现蕴含人类理解的过程进行分词的技术,就是中文分词技术。
本文对现存的主流分词方法进行了分析和比较,对前人的成果和经验进行了研究和改进,设计实现了一个基于词典和统计方法的在线中文分词系统。本文系统使用了基于二种主流分词方法的经典算法,双向最大匹配法和结合Viterbi算法的HMM统计方法。这两种方法能够较好地改善中文语言识别一直难以应对处理的两大问题:歧义识别和未登录词。本系统为用户提供了一个中文分词的在线平台,有文本分词,导入待分词文件,导出结果等功能可供使用,并能够由用户根据文本内容可能会出现的歧义和新词问题,选择不同的功能进行划分。本系统在切词准确度和速度上的表现较为良好,基本完成了中文分词的工作,提供了较好的用户体验。
本文系统的创新点在于,将python语言作为开发语言,并选择了较为热门的web框架django作为开发在线系统的框架, 实现了一个在线中文分词系统。
该论文有图15幅,表2个,参考文献26篇。
关键词:中文分词 双向匹配 HMM Django Python
目录
摘要
Abstract
1 绪论-1
1.1研究背景及意义1
1.2中文分词的现状1
1.3开发工具介绍-3
1.4 课题任务及论文结构-9
1.5本章小结-9
2 中文分词简介-10
2.1中文分词问题描述10
2.2中文分词难点分析10
2.3主要的分词算法-11
2.4本章小结16
3 需求分析-17
3.1系统功能需求分析17
3.2性能需求18
3.3可行性分析18
3.4本章小结19
4 系统总体设计-20
4.1系统的结构划分-20
4.2本章小结22
5 中文分词系统实现-23
5.1系统设计与原则-23
5.2 Django的配置-23
5.3分词功能模块24
5.4用户功能模块25
5.5本章小节28
6 测试-29
6.1测试环境和测试方案-29
6.2系统评价标准29
6.3 实验结果与结论31
6.4本章小结31
7 用户使用说明-33
7.1输入待分词文本-32
7.2功能选择32
7.3 导入待分词文件和导出结果-34
7.4本章小结34
8 总结与展望35
8.1总结35
8.2展望35
毕业设计体会36
参考文献37
致谢38