摘要:随着社会的不断发展,文学作品的作者权越来越被人关注,而这其中重
要的一方面就体现在文学名著的作者争论。以往文学家从定性分析的角度运用文学专业知识进行文学作品作者权的研究。但却往往因为没有具体数据证明而出现争论。而统计学的不断发展为解决这一难题提供了定量分析的手段。目前,国内外均有用统计方法分析文学名著作者的成功案例。运用统计方法分析作者权的是建立在这样一个基础认识上的即作者的行文风格,虚词使用习惯在一段时间内是相对稳定的。本文应用统计分析方法分析文学名著中作者争论的问题。分析样本数据是《红楼梦》120回中的每回内“之”、“其”、“或”、“亦”、“然”出现的次数。首先运用了聚类分析对《红楼梦》的作者进行分析。在快速聚类分析中,选择把样本分成两类,输出结果。在用独立样本的T检验分析。比较两次分析所得结果,并根据所得结果,对红楼梦的作者权做出相应的判断。比对本文所得结论与其他学者所得结论,总结实验的优点与缺点。最后将本次实验推广到广泛文学作品作者权的研究中,并总结出统计技术在文学名著作者权问题上的应用的一般方法步骤。
关键词:《红楼梦》、作者权、统计分析、聚类分析
目录
摘要
Abstract
一、绪论-4
(一)选题背景与意义-4
(二)国内外研究现状及水平-4
二、数理统计及聚类分析的相关介绍-5
(一)数理统计的基本介绍-5
(二)聚类分析的定义及目标-6
(三)文本聚类技术的基本原理-6
(四)快速聚类的介绍-7
(五)独立样本t检验的基本介绍-7
三、《红楼梦》的作者权分析-8
(一)数据的搜集和整理-8
(二)聚类分析计算过程-10
(三)聚类分析的结果分析-10
(四) T检验的过程-12
(四) T检验的结果分析-14
四、总论-14
(一)主要结论-14
(二)研究认识与反思-15
【参考文献】-16