摘要:由于信息技术的不断发展以及国家与社会对中医药信息化建设的逐渐重视,中医药数据挖掘的工作也随之不断深入。由于中医药历史源远、地域广泛,其文献信息量巨大。如何将文献典籍、方剂数据化并通过数据挖掘工作从中找出并归纳出有用的中医药信息是一项重大工程。数据挖掘可以用于找出隐藏于大数据之下的规律从而为中医药配伍提供辅助决策。中医药语料库建设、适合中医药领域的自然语言处理技术、以及文本数据挖掘技术逐渐成为中医药现代化的一大重点。
关键词:中医药;语料库; 语义分析;数据挖掘
目录
摘要
Abstract
1.引言-4
1.1背景与研究意义-4
1.2主要研究内容-4
2.技术综述-6
2.1中医药知识库及语料库建设-6
2.2自然语言处理技术-6
2.2.1中文分词-6
2.2.2语句相似度-7
2.3数据建模预测-7
3.中医药数据获取-8
4. 中医药文献语料处理-10
4.1语料库构建-10
4.2中医药中文分词-10
5.中医药领域语义分析-12
5.1word2vec向量化-12
5.2中医药词语相似度-12
5.3中医药句子相似度-12
5.3.1词向量加权方法-12
5.3.2计算语句相似度-13
6.建模预测-14
6.1特征工程及数据标准化-14
6.1.1特征工程:one-hot编码-14
6.1.2数据标准化-14
6.2建立数据集-14
6.2.1建立方剂-病症关系矩阵-14
6.2.2构建方剂组成矩阵-15
6.3建立机器学习模型-15
6.3.1多层感知机-15
6.3.2多层感知机原理及步骤-16
6.3.3具体建模训练过程-17
6.3.4机器学习模型评估-17
6.4建模工作流程图-18
6.5 模型预测-19
7.工作总结及展望-20
参考文献-21
致谢-23