摘要:近几年,产品经理这一岗位逐渐受到了各大公司的重视,岗位需求量逐渐增多,在招聘市场上出现了巨大的缺口,但在大学教育中却没有出现与之相对应的专业以及课程。
本文利用大数据技术中的网络爬虫技术对前程无忧招聘网站上发布的产品经理相关招聘信息进行数据挖掘,由于抓取到的信息中含有较多干扰项,所以需要提前处理原始数据。选用缺失值属性的众数填补缺失值,对记录值缺失过多的属性值进行删除操作。然后将整理完成的职位信息用结巴分词技术进行分词,分别提取岗位分词结果中出现最多的前二十个词作为特征项。最后将待分类的产品经理岗位用朴素贝叶斯算法进行分类。对分类结果进行可视化分析,研究这些岗位的学历要求、薪资变化以及技能要求等特点。为产品经理课程研发人员以及求职人员提供参考。
关键词 数据挖掘;岗位分类;数据预处理;招聘网站
目录
摘要
Abstract
1 绪论-1
1.1 课题研究背景及目的-1
1.2 国内外研究现状-1
1.2.1 大数据技术研究现状-1
1.2.2 文本分类研究现状-2
1.3 本文结构安排-2
2 数据处理基本理论-4
2.1 网络爬虫-4
2.1.1 网络爬虫基本架构-4
2.1.2 网络爬虫的工作流程-4
2.2 数据预处理-5
2.2.1 数据清洗-5
2.2.2 数据集成-6
2.2.3 数据变换-6
2.2.4 数据规约-6
3 文本分类基本理论-7
3.1 中文分词-7
3.1.1 去除停用词-7
3.1.2 中文分词基本算法-7
3.2 文本特征抽取-8
3.3 分类算法-8
3.3.1 分类决策树算法-8
3.3.2 朴素贝叶斯算法-9
4 实证分析-11
4.1 需求分析-11
4.2 数据存储-11
4.3 数据获取-11
4.4 数据预处理-12
4.4.1 缺失值处理-12
4.4.2 规范化处理-14
4.5 岗位分类-15
4.5.1 岗位名称分词-15
4.5.2 岗位特征提取-15
4.5.3 岗位分类的实现-19
4.6 可视化分析-23
4.6.1 最低学历占比-23
4.6.2 产品经理工资变化-23
4.6.3 掌握技能-24
结论-26
致谢-27
参考文献-28
附录-29