位置:成果数据库 > 期刊 > 期刊详情页
基于统计的中文关键短语自动抽取
  • ISSN号:2096-1928
  • 期刊名称:《服装学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏苏州215104, [2]苏州大学计算机学院,江苏苏州215006
  • 相关基金:国家自然科学基金项目(60970057);江苏省现代企业信息化应用支撑软件开发中心开放基金项目(SX200907).
中文摘要:

用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为Ⅳ元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure25%;TOP10精确率17.10%,召回率44.50%,F-measure30.80%。

英文摘要:

A statistics- based approach is proposed for automatically extracting keyphrases from Chinese scientific documents. Term frequency and first occurence are valid in the approach. Several filtering methods are utilized to filter invalid terms. Text feature and statistic information are combined to select keyphrases. The final keyphrases are ouputed on the basis of the actual distribution of keyphrases. Keypharases distribution information provides some experiment proof for N-gram fiheration and output by proportion. The experimental results achieve the performance of TOP 5 precision 21.80% ,recall 28.27% ,F-measure 25.00% and TOP 10 precision 17.10% ,recall 44.50% , F-measure 30.80%.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《服装学报》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国教育部
  • 主办单位:江南大学
  • 主编:高卫东
  • 地址:无锡市蠡湖大道1800号江南大学
  • 邮编:214122
  • 邮箱:fzcb@jiangnan.edu.cn
  • 电话:0510-85913519
  • 国际标准刊号:ISSN:2096-1928
  • 国内统一刊号:ISSN:32-1864/TS
  • 邮发代号:
  • 获奖情况:
  • 2000年荣获首届《CAJ-CD规范》执行优秀奖,2004年荣获全国高校科技期刊优秀编辑出版质量奖,2007年在"第六届江苏省期刊质量评估及优秀期刊评...,2007年在"第六届江苏省期刊质量评估及优秀期刊评...
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊
  • 被引量:18