研究适于句子与篇章的汉语语义计算模型,包括语义知识形式化表示方法、文本的语义表征模型、语义计算方法。研究内容和特色包括①提出了一种显式表示概念的语义知识的形式化方法,把传统的基于语义知识库的方法与基于文档集统计分析的方法有机结合,取长补短,充分发挥各自的优势,又在一定程度上弥补各自的不足;②提出了用云模型来表征与计算不确定性概念的语义的方法,使得计算机能够在一定程度上理解不确定性概念的模糊性、随机性及二者间的关联性;③将这种语义知识平滑融入到现有的文本计算模型中建立文本的语义表征与计算模型,可显著提高计算机的语义理解能力;④提出与研究基于真实语言生活材料感知语义知识的策略,便于知识的动态更新、情境感知;⑤利用这种语义计算模型,研究影响自然语言处理的若干难点问题的解决方案,并通过网络文本信息检索的应用,验证研究成果的有效性。本研究对实现重大研究计划的总体目标有重要意义。
semantic computation;language model;topic model;cloud model;
本项目以重大研究计划“视听觉信息的认知计算”提出的“感知特征提取、表达与整合”、“感知数据的机器学习与理解”为指导,重点了研究如何从中文网络文本信息中自动获取语义知识,从而实现对网络文本基于适度语义理解的内容计算。 2010年1月至2012年12月,我们按照项目计划书顺利完成了“汉语语义知识获取与语义计算模型研究”的国家自然科学基金项目。在项目的实施过程中,提出了从真实语言生活材料获取汉语语义知识、通过词汇之间的关联关系形式化描述语义的方法,并将这种语义知识平滑融入现有的文本计算模型中,建立概念语言模型,该模型能将语义概念融入到传统的语言模型中,提高计算机对自然语言文本的语义计算能力,其有效性已通过不同网络文本信息处理系统中的应用得以验证。 针对语义知识的获取与表示,提出了从大规模真实文本集,百科知识库,以及博客中自动获取多样化的概念语义知识策略,以及基于语义标签与语义指纹模型的语义形式化表示方法,以实现知识获取。针对语义计算,提出了基于语义指纹的概念语言模型,将获取的语义知识自然融入到语言模型中,从而建立更加精确的语言表征。提出了用云模型来表征与计算不确定性概念的语义的方法,将获取的不确定性知识应用于文本处理。针对基于语义的网络文本信息处理的各项任务,我们分别提出了基于语义的解决方案,如基于LDA模型的生物信息检索方法、基于主题模型的基因功能组检索方法、基于作者-会议-主题关联模型的学术信息检索方法、基于云模型的面向查询的多文档自动文摘方法、基于LDA主题模型的文本聚类方法、基于云模型的贝叶斯文本分类方法。