潜在语义分析是一种无指导的特征抽取方法,该方法通过文档间词语共现的传递关系,改善了自然语言理解中对同义和多义等问题的处理能力,从语义层次上推动了信息检索、文本分析等多个研究领域的发展。但目前的潜在语义分析研究中,对特征传递关系的质量评价、空间选择等关键问题缺乏深入的研究和探讨。因此,本课题从改进特征传递质量的角度出发,提出了潜在语义分析优化的研究思路,重点研究改善特征传递质量的优化方法,探讨利用分析过程中的中间矩阵进行多重潜在语义分析的优化技术。同时,考虑到与先验知识和现有文本分析技术的结合,提出了基于伪文档的潜在语义分析方法,满足了潜在语义分析在人工指导和时效性方面的实际需求;采用文本分割、聚类等技术细化了特征间共现粒度,为构建更为良好的特征传递关系提供了更有效的融合策略。本课题的研究将为潜在语义分析的研究提供新的研究思路,其研究成果也将为语义层次的信息处理技术提供新的技术基础。
latent semantic analysis;feature co-occurrence tracking;pseudo document;system combination;patent classification
课题围绕潜在语义分析的特征传递关系的优化问题,分别从特征-文档矩阵的优化、传递关系的优化、模型融合的优化三个方面进行了研究工作,充分挖掘自然语言自身的研究特点,通过特征选择、文本分割、信息抽取等技术手段完善传统潜在语义分析模型。 课题按研究计划,围绕基于伪文档的潜在语义分析优化方法,重点开展了伪文档的抽取和构成方面的研究工作,特别是提出了在组块层次标注基础上应用马尔可夫逻辑网分层次进行中文专利开放式实体关系抽取的方法,深层次地挖掘信息背后的语义信息,这种统计推理方法能较为灵活地处理同义结构,并作为重要的传递关系以伪文档的形式可有效改进潜在语义分析的性能。同时,本研究内容也是首次开展中文的开发式信息抽取技术的研究,相关研究结论为本技术的后期发展提供重要的参考,建立的中文专利依存树库也将为其他面向中文专利文本的分析技术提供基础。基于主题的潜在语义分析方法,以文档内的子主题识别和划分为出发点,提出了子语段和伪语段两种构成方法,分别利用自然标记、文本分割、特征分布等信息进行语段构成,力求从多角度构建合理的共现单元,最终利用系统融合的技术方法进行各语段潜在语义模型的融合,实现总体性能10%以上的性能提高。随着上述的研究深入,在资源和主题文档的不断增加的情况下,潜在语义分析方法面临模型训练的效率问题,因此,课题在潜在语义分析模型优化方法中提出了基于增广空间的潜在语义分析优化方法,将不同语料中获得的潜在语义空间进行融合,形成特征潜在语义的增广空间,而后在此增广空间中进行原始语料到潜在语义空间的映射,在确保传统方法性能的基础上,将原始的模型训练方法转换为不同子集的训练过程,提高模型的应用价值。与模型本身的优化不同,课题研究中还采用了系统融合的技术手段,进一步探索从不同角度、不同共现空间进行潜在语义分析模型的构建,并在结果融合中获得了较好的性能表现。 为了保证上述研究工作能够进行科学合理的评价,课题的研究成果均选择专利文献的分类任务(NTCIR国际评测)作为评测标准,确保上述优化工作对系统性能的真实贡献。最终,在基于主题的潜在语义分析方法中进行系统的有效融合,实现了专利分类准确率10%以上的优化提升。