位置:成果数据库 > 期刊 > 期刊详情页
基于带汇点流形的面向属性抽取式观点摘要
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2014.8.1
  • 页码:84-91
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1] 中国科学院计算技术研究所,北京100190, [2]中国科学院大学,北京100049
  • 相关基金:国家自然科学基金(61100083);国家863计划基金(2012AA011003)
  • 相关项目:面向在线社会网络的异质关系多尺度社区分析研究
中文摘要:

该文提出了一种可扩展的网页关键信息抽取框架.该框架很好地融合了模板无关的全自动信息抽取算法和基于模板的信息抽取算法,从本质上提高抽取精度和抽取效率.该框架中的一些关键环节可根据需求进行替换,因此该框架具有很好的可扩展性.同时,该文还提出了模板的正交过滤算法.将该算法引入基于模板的抽取算法中,能够从本质上提高生成的模板的准确性.实验结果验证了上述结论.

英文摘要:

An extensible framework of web key information extraction is presented in this paper. This framework combine automatic information extraction algorithms and template detection algorithms, essentially improving the precision and efficiency of extraction. Some key parts of this framework can be replaced as required, therefore it has excellent extensibility. Furthermore, this paper also describes an orthogonal filter algorithm, Which improves the precision of template generation. And the experiments provide positive results for this method.

同期刊论文项目
期刊论文 15 会议论文 13 获奖 1 著作 1
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136