信息距离(Information Distance)是衡量事物本质联系的一种通用性度量,具有普适性、领域无关性、参数无关性等优越的性质。该理论已经在非参数的知识挖掘,文本信息处理、基因和蛋白质序列比对等领域得到了成功的应用。本项目将对信息距离的若干重要理论问题进行深入探讨,并在文本信息挖掘领域展开应用研究。在理论研究方面,研究重点将集中在在深入分析max型和min型信息距离的基础上,提出综合模型,扩展现有模型的描述能力;完善多个对象间的信息度量,进一步研究多个对象间的min型信息距离和条件信息度量的问题;研究信息距离的近似算法,扩展信息距离理论的应用范围。在实际应用方面,将把信息距离理论应用到问答系统、文档摘要系统和评论信息挖掘系统中,利用信息距离理论刻画出词与词之间,句子与句子之间,问题与答案之间,多个文档之间,词语情感程度之间的信息度量,并利用新提出的近似算法,提高这些系统的性能。
Information distance;natural language processing;text mining;sentiment computation;
本课题的工作目标是对信息距离的若干理论问题进行深入探讨,并在文本信息挖掘领域展开应用研究。在本项目的支持下,本课题组的研究主要集中在在提出并完善多种信息度量理论及其近似算法,扩展信息距离理论的应用范围。在实际应用方面,把信息距离理论应用到问答系统、文档摘要系统和评论信息挖掘系统中。利用信息距离理论刻画出词与词,句子与句子之间,问题与答案之间,多个文档之间,词语情感程度之间的信息度量,并利用所提出的近似算法提高系统的性能。主要研究成果包括1)推广了多对象之间的信息度量理论,给出了近似估计算法。将该算法应用于文档摘要和评论挖掘,选取最有代表性的和最全面的段落篇章,提高了系统的性能。采用该算法的系统在国际评测TAC2009中得到了第一名的好成绩。相关工作论文已经被国际刊物KAIS录用。2)提出了一种基于信息距离的多词表达的语义度量模型。将多词表达式距离应用于问答系统的后处理以及复杂命名实体的抽取,大大提高了系统的性能。相关论文获得了COLING2010的最佳论文。3)基于信息度量的语义相关性计算模型。提出了概念与概念之间的关系、概念与概念类别之间的关系在语义层面上的相互增强假设。在此基础上提出的语义相关性度量方法不仅仅能够度量概念之间的语义相关性,同时可以通过他们的类别推断其语义相关性。相关工作发表在人工智能最好的国际会议IJCAI和国际刊物JCST上。4)基于文本信息度量概念的文本情感表达与情感计算研究。研究了情感数据的可信度度量问题。将概念、概念类别之间的关系度量问题转换为概念与概念之间的相似度度量的一种扩展,由此引入信息度量的理论及其一系列算法。提出了跨领域的特征词和情感词抽取算法,构建了一个情感挖掘平台。相关工作发表在IJCAI上。