专利检索是信息检索领域中的一个重要研究方向,如何在充分考虑专利文本自身特点的基础上进行有效地专利检索,是一项非常值得研究的课题。本申请项目的研究目标是在充分考虑专利文本自身特点、并对专利文本进行深入分析的基础上系统地研究中文专利检索任务中的各项关键技术。我们的目标是建立一套面向中文的有效的专利检索方法。在具体研究中,涉及的研究内容包括专利相关性检索、专利分类、专利无效性检索、专利趋势分析等任务。本申请项目的研究成果不仅可以完善信息检索的相关理论与方法,还可以通过内容分析技术提高中文专利检索各项任务的性能。而且,本申请项目的研究成果可以促进开发有潜力的专利检索系统,具有广阔的市场应用前景。
patent mining;domain ontology construction;theme clustering;semantic relations mining;
项目执行期间,课题组严格按照申请书原定研究技术执行,研究完成了以下内容专利文本与科技文本中语义关联词汇的获取方法;基于语义关联词汇的查询扩展方法;相关性的评价方法研究;专利文本不同部分对相关检索性能的贡献度分析;基于专利文本结构信息的相似度计算模型;基于语义关联词汇的相似度计算模型;融合多种特征的重排序模型;中文专利文本中权利要求部分的结构分析研究;融合IPC分类码、权利要求结构分析的无效性检索模型研究;基于语义关联词汇的主题聚类模型。项目执行期间,研究小组将研究成果在自然语言处理国际顶级会议Coling、EI和SCI检索源国际杂志上共发表九篇学术论文,其中包括三篇SCI检索国际杂志长文、三篇EI检索国际期刊长文和三篇Coling顶级国际会议论文。项目执行期间,项目负责人协助培养毕业了六名硕士生,正在两名在读硕士生。项目执行期间,项目负责人又获得了两项教育部基本科研业务费项目和一项百度IT主题研究项目。