基于中文文本挖掘技术的SIPO专利知识演化分析-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于中文文本挖掘技术的SIPO专利知识演化分析

项目名称：基于中文文本挖掘技术的SIPO专利知识演化分析
项目类别：面上项目
批准号：61272370
申请代码：F020601
项目来源：国家自然科学基金
研究期限：2013-01-01-2013-12-31

项目负责人：丁堃
负责人职称：教授
依托单位：大连理工大学
批准年度：2012

中文摘要：

专利是技术知识最有效的载体，专利知识演化图谱的构建将会极大地提升专利的应用价值。项目的宗旨是综合运用文本挖掘技术，从知识主体和知识客体两个视角，进行面向专题的专利知识演化分析。首先，对于给定的用户需求，构建相应的领域本体，用于术语识别和查询扩展，检索国家专利数据库SIPO，建立专题数据库；然后，给出专利的逻辑表示，定义专利知识的细粒度表示、,利用命名实体识别、属性抽取、语义标注等技术，填充专利的Feature、Effect和Value值框架，将非结构化信息转化为可以量化的知识单元。在专利知识相似度和新颖度基础上进行专利的主题聚类；最后，构造基于知识主体的竞争网络和基于知识客体的共词网络，按照时间维度，研制专利知识演化图谱，进行热点专利识别、专利机会发现和专利趋势预测，建立可视化的专利挖掘平台。

中文主题词：语义检索；信息抽取；有序聚类；机会发现；专利预测

英文摘要：

Semantic Search；Information Extraction；Sequential Clustering；Chance Discovery；Patent Prediction

英文主题词： Semantic Search；Information Extraction；Sequential Clustering；Chance Discovery；Patent Prediction

结论摘要：

专利是技术知识最有效的载体，专利知识挖掘将会极大地提升专利的应用价值。项目主要目的是综合运用知识计量、文本挖掘、自然语言处理技术，以国家专利数据库SIPO为载体，进行面向专题的专利知识演化分析。首先，给出了专利的逻辑表示，相对于通常的信息抽取，根据专利领域特性，构建了专利知识的细粒度表示,将专利摘要文本表示技术特征和特征值的序列，即< Patent Frame>表示为若干个，利用命名实体识别、属性抽取、语义标注等技术，填充专利，从而将非结构化信息转化为可以量化的知识单元，实现了更为精细化的检索和分析。然后，在专利逻辑表示的基础上，提出了基于有序聚类和主题模型的专利知识演化分析方法，得到了所关心领域的不同发展历史阶段和不同阶段的主题聚类。在每个时间段内部，专利技术具有较强的内聚性，围绕相关的主题展开。不同时间段之间耦合性降低，表现为不同时期的专利热点的变化，有序聚类可以合理的表示技术发展的阶段。在前面演化分析的基础上，根据词语共现和时间因素构建词语关联图，从而基于小世界理论进行专利机会预测。实验显示，该方法能够发现潜在的专利机会。最后，建立可视化的中文专利挖掘平台，并将其中主要的文本挖掘方法拓展到到专利、生物、引文网络中。

成果综合统计