位置:立项数据库 > 立项详情页
基于中文文本挖掘技术的SIPO专利知识演化分析
  • 项目名称:基于中文文本挖掘技术的SIPO专利知识演化分析
  • 项目类别:面上项目
  • 批准号:61272370
  • 申请代码:F020601
  • 项目来源:国家自然科学基金
  • 研究期限:2013-01-01-2013-12-31
  • 项目负责人:丁堃
  • 负责人职称:教授
  • 依托单位:大连理工大学
  • 批准年度:2012
中文摘要:

专利是技术知识最有效的载体,专利知识演化图谱的构建将会极大地提升专利的应用价值。项目的宗旨是综合运用文本挖掘技术,从知识主体和知识客体两个视角,进行面向专题的专利知识演化分析。首先,对于给定的用户需求,构建相应的领域本体,用于术语识别和查询扩展,检索国家专利数据库SIPO,建立专题数据库;然后,给出专利的逻辑表示,定义专利知识的细粒度表示、,利用命名实体识别、属性抽取、语义标注等技术,填充专利的Feature、Effect和Value值框架,将非结构化信息转化为可以量化的知识单元。在专利知识相似度和新颖度基础上进行专利的主题聚类;最后,构造基于知识主体的竞争网络和基于知识客体的共词网络,按照时间维度,研制专利知识演化图谱,进行热点专利识别、专利机会发现和专利趋势预测,建立可视化的专利挖掘平台。

结论摘要:

专利是技术知识最有效的载体,专利知识挖掘将会极大地提升专利的应用价值。项目主要目的是综合运用知识计量、文本挖掘、自然语言处理技术,以国家专利数据库SIPO为载体,进行面向专题的专利知识演化分析。首先,给出了专利的逻辑表示,相对于通常的信息抽取,根据专利领域特性,构建了专利知识的细粒度表示,将专利摘要文本表示技术特征和特征值的序列,即< Patent Frame>表示为若干个,利用命名实体识别、属性抽取、语义标注等技术,填充专利,从而将非结构化信息转化为可以量化的知识单元,实现了更为精细化的检索和分析。然后,在专利逻辑表示的基础上,提出了基于有序聚类和主题模型的专利知识演化分析方法,得到了所关心领域的不同发展历史阶段和不同阶段的主题聚类。在每个时间段内部,专利技术具有较强的内聚性,围绕相关的主题展开。不同时间段之间耦合性降低,表现为不同时期的专利热点的变化,有序聚类可以合理的表示技术发展的阶段。在前面演化分析的基础上,根据词语共现和时间因素构建词语关联图,从而基于小世界理论进行专利机会预测。实验显示,该方法能够发现潜在的专利机会。最后,建立可视化的中文专利挖掘平台,并将其中主要的文本挖掘方法拓展到到专利、生物、引文网络中。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 19
  • 1
  • 0
  • 0
  • 0
相关项目
丁堃的项目