位置:成果数据库 > 期刊 > 期刊详情页
搜索日志中热点查询的内容抽取
  • ISSN号:1000-386X
  • 期刊名称:《计算机应用与软件》
  • 时间:0
  • 分类:G306[文化科学]
  • 作者机构:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101, [2]北京城市系统工程研究中心,北京100089
  • 相关基金:本文为国家自然科学基金项目“基于本体的专利自动标引研究”(项目编号:61271304)和北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”(项目编号:kz201311232037)的成果之一.
中文摘要:

文章利用文本挖掘技术抽取技术主题和规范化主题,为技术主题分析提供基础工作。根据技术主题在专利标题中的分布特点和技术主题分析时主题词的统计长度特征,提出一种主题度计算方法,将主题度较大的词作为主题词:通过计算相似度获得主题词的同义词对,借助统计特征对主题词规范化表示。实验结果表明,文章提出的主题词抽取方法是有效的,实验准确率为95.5%,召回率为95.5%;同时文章提出的主题规范化方法具有较大的意义。

英文摘要:

This paper uses text mining technology to extract technical theme and standardization theme, which provide basis for technical theme analysis. According to the distribution characteristic of technical theme in patent title and statistical length characteristic of keywords in technical theme analysis, the paper proposes a computing method of theme degree and treats the bigger value as the keywords. The paper obtains pairs of synonyms by similarity calculation and represents standardization of keywords through statistical features. The experimental result shows that the proposed keywords extraction method is effective; the accuracy of experiment is 95.5% as well as the recall rate. In addition, the proposed theme standardization method has certain significance.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463