摘要:词义是词汇在一定的语言环境下反应的特定语言现象,它能明确地表达该词汇在此语言环境下的语义属性如感知、行为和情绪等;表达该词汇与相关词汇之间的关系,并且表达该词汇所特有的知识和常识性的知识。在汉语言中,一个词汇往往存在多个词义,被称为词的多义性。但是,当词汇处于一定的语言环境时,它又只能具有唯一的意思。词义消歧就是让计算机自动为词汇选择正确的意思,是自然语言处理领域中词汇级别上最大的难题。
词义消歧是计算语言学领域的基础性关键研究课题,作为一个“中间任务”,直接关系到信息检索、文本分类、语音识别、机器翻译、等语言处理应用系统的效率和成败。Weaver论及机器翻译系统中必须进行词义消歧,这一点在Chan等人的研究中得到了证明,其研究表明词义消歧可以显著提升机器翻译系统的准确率。Stokoe等人证明高效的词义消歧技术可以显著提升信息检索的准确率。然而,正如Ide和Veronis所指出的那样,虽然历经半个多世纪的努力,词义消歧研究并没有取得突破性进展。现在10个春秋又逝去了,词义消歧依然是学人们孜孜以求攻克的难关。
无论是指导人们学习的词典还是指导机器消歧的词典都将遇到的一个难题是:如何对词语进行义项划分? Kilgarriff批评书本型词典由于受到“传统、印张、易接受性”等多种因素的制约在义项分合上存在许多不足,这种词典并不能很好地用于词义分析。Veronis曾做过一个有趣的实验: 600个词语分配给6名语言学专业的学生,由他们依据辞书中的释义对真实语料进行词义标注。结果,不同标注者之间的一致性非常低,对于有些词语,标注的不一致性甚至和随机标注一样糟糕。总体上讲,传统辞书上的义项划分对于语言信息处理过于细微了一些。WordNet常被人反对之处就在于义项划分太过细致。现在很多研究者倾向于粗粒度的义项划分,一方面粗粒度义项可以保证更高的标注一致性,另一方面基于粗粒度的义项划分计算机自动词义消歧可以达到一个相对高的准确度,从而可以应用于实际系统。
基于统计的词义消歧模型的一个关键问题是怎样自动从语料库中获取指示词,虽然通过学习搭配实例能够在语料库中获取更多的搭配知识,但人工获取质量较好的初始搭配是比较困难的 ,并且无法保证有效的扩大搭配知识。针对该问题,提出了通过机器学习搭配实例获取最优种子,再用最优种子扩增更多指示词,最后利用这些指示词实现具有多个义项的多义词消歧。
关键词:多义词消歧 基于指示词 RFR_SUM模型 最大熵 语境计算模型