位置:成果数据库 > 期刊 > 期刊详情页
网页中商品“属性—值”关系的自动抽取方法研究
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2013.1.1
  • 页码:21-29+38
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]苏州大学计算机科学与技术学院,江苏苏州215006
  • 相关基金:国家自然科学基金资助项目(60970057);国家自然科学基金资助项目(61003152);苏州市自然科学基金资助项目(SYG201030)
  • 相关项目:基于倾向性演化学习的新闻话题变种检测方法研究
中文摘要:

商品属性及其对应值的自动挖掘,对于基于Web的商品市场需求分析、商品推荐、售后服务等诸多领域有重要的应用价值。该文提出一种基于网页标题的模板构建方法,从结构化网页中抽取完整的商品“属性值”关系。该方法包含四个关键技术:1)利用商品网页标题构建领域相关的属性词包;2)基于预设分隔符细化文本节点;3)结合领域商品属性词包获取种子“属性值”关系;4)结合网页布局信息和字符信息来筛选与构建模板。该文的实验基于相机和手机两个领域展开,获得94.68%的准确率和90.57%的召回率。

英文摘要:

If we represent the products as attributes and attribute values, it will improve the effectiveness of many applications, such as demand forecasting, product recommendations, and product supplier selection. In this paper, we propose a novel pattern based method to extract the "attribute-value" pair of product from structured or semistructured Web pages. This approach contains four key components: 1) acquire domain-specific attributes from tities of Web pages in the same domain. 2) refine text nodes based on some default delimiters. 3) coIlect seed "attribute-value" pairs based on the domain-specific attributes. 4) construct high-quality patterns by combining page-specific layout information and character information. The experimental corpus is collected from two domains: digital camera and mobile phone. Experiments show the proposed method can schieve 94.68%in precision and 90.57% in recall.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136