在网络环境下保护电子文本知识产权,打击非法复制、剽窃论文等不端学术行为,是当前亟待解决的一个热点问题。现有文本复制检测方法不能有效检测从英文翻译到中文这种翻译型的文本剽窃。项目将要研究在网络条件下多语言文本混杂、无结构文本和半结构文本混杂的情况下,如何高效、快速检测各种类型雷同文本。包括基于双语本体的翻译型无结构自然语言文本复制检测方法,基于小波变换提取结构特征的半结构文本复制检测,面向网络服务的主动式文本复制检测体系模型。研究方案的特色在于(1)不需要对文本进行机器翻译,而是根据双语本体把中英文字词转变为概念,然后依据概念集序列检测文本复制。(2)提出比较全面、主动、快速的文本复制检测策略和体系模型。本项目的研究对于文本挖掘、文本相似性度量和自然语言处理具有很大理论意义,对于保护电子文本知识产权,打击论文造假,端正学术风气具有重要的应用价值和社会意义。
Text Copy Detection;Semi-structural Text;Cross Language;Intellectual Property Protect;Software as a Service
在网络环境下保护电子文本知识产权,打击非法复制、剽窃论文等不端学术行为,是当前亟待解决的一个热点问题。现有文本复制检测方法不能有效检测从英文翻译到中文这种翻译型的文本剽窃。项目研究了在网络条件下多语言文本混杂、无结构文本和半结构文本混杂的情况下,高效、快速检测各种类型雷同文本的方法和体系模型。包括在翻译型无结构自然语言文本复制检测方法、半结构文本复制检测方法、面向网络服务的文本复制检测体系模型以及相似性检测方法在其它序列数据上的应用等方面开展了研究,取得了成果。项目提出了文本概念图模型用来解决中英文双语文本之间的语义相似性问题。该模型不需要对文本进行机器翻译,而是根据双语本体把中英文字词转变为概念,把文本词语内在语义联系反映到词语结点权值中,建立文本概念图模型检测文本复制,可以更好地反映文本语义信息。提出了基于小波变换的结构相似度模型可以较少的误差来快速度量半结构化文本结构相似性。该模型用一个短向量来存储半结构化文本的结构信息,并且算法时间复杂度小,能够快速有效地度量半结构化文本的结构相似性,为半结构化文本检索与查询系统带来很大的性能提升空间。提出了适应云计算环境体现软件即服务思想的新型软件服务体系,可以提供文本复制检测和XML文本相似度计算等多种公共服务,为将来把项目研究成果向社会进行大规模推广奠定了坚实基础。项目还将上述复制检测核心算法思想推广到时间序列、蛋白质序列、UML模型等多种序列数据上,体现出了项目研究成果的广阔应用前景。项目组累计获得了2项国家发明专利授权,另外还有2项国家发明专利正在审批中;出版了1部专著;发表(含录用)了8篇学术论文,其中EI检索5篇,2篇论文被SCI源期刊录用(待发表)。项目组已经培养毕业了3名硕士研究生,还有3名硕士研究生将于2013年春季毕业,3名硕士研究生将于2014年春季毕业。项目成果对于文本挖掘、文本相似性度量和自然语言处理具有很大理论意义,对于保护电子文本知识产权,打击论文造假,端正学术风气具有重要的应用价值和社会意义,对于序列数据知识挖掘应用具有巨大的潜在经济价值。