摘要:日益更新的社交工具衍生出了信息量巨大的社交网络,这其中含有大量的无用信息,使得获取、存储和处理十分不便,因此对原始网络进行抽样具有重要意义。
本文使用了以下几种抽样算法来对某一社交网络数据进行抽样,包括随机抽样、广度优先搜索抽样、滚雪球抽样、森林火灾抽样和随机行走抽样。然后通过计算和比较统计量再对这些抽样策略的优劣进行评价。统计量过多的选取会影响评价的效率,因此本文以度分布,平均聚类系数和匹配系数作为评价指标。
在统计量的计算过程中,本文在每种抽样策略下取每种抽样长度的10次抽样平均值进行比较。最终得到,当抽样长度较小时,随机行走抽样效果较好,当抽样长度较大时,滚雪球抽样的效果较好。
关键词:随机抽样;滚雪球抽样;森林火灾抽样;度分布
目录
摘要
Abstract
1绪论-1
1.1研究的背景-1
1.2国内外研究现状-1
1.3研究内容-2
2工作原理-3
2.1流程图-3
2.2各抽样算法工作原理-4
2.2.1 随机抽样-4
2.2.2 广度优先搜索抽样-5
2.2.3 滚雪球抽样-6
2.2.4 森林火灾抽样-7
2.2.5 随机行走抽样-7
3 研究结果-8
3.1 软件介绍-8
3.1.1 Python简介-8
3.1.2 networkx和Matplotlib简介-8
3.2 程序编写-9
3.3 计算统计量-9
3.4 结果分析-12
总 结-15
参考文献-16
附录A 实现代码-17
致 谢-24