位置:成果数据库 > 期刊 > 期刊详情页
服装类商品属性实体识别
  • ISSN号:1001-9081
  • 期刊名称:《计算机应用》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院成都计算机应用研究所,成都610041, [2]现代制造技术教育部重点实验室(贵州大学),贵阳550003
  • 相关基金:国家科技支撑计划项目(2012BAF12814);国家自然科学基金资助项目(51475097).
中文摘要:

针对服装类商品标题中的商品属性实体识别问题,提出了一种边界探测规则与条件随机场(CRF)相结合的混合方法。首先,使用统计方法挖掘隐蔽的实体提示字信息;然后,以字为粒度对三种统计成词指标及其内涵进行了阐释;接着,基于统计成词指标和提示字信息设计了实体边界探测规则;最后,基于经验风险最小化给出了规则中阈值的确定方法。在与字标注的CRF模型的对比实验中,总体准确率、召回率、F1值分别提升了1.61%、2.54%和2.08%,验证了对于实体边界探测规则的有效性。所提方法可用于电子商务信息检索(IR)、电子商务信息抽取(IE)、查询意图识别等任务。

英文摘要:

For the entity recognition of commodity attributes in clothing commodity tide, a hybrid method combining Conditional Random Field (CRF) with entity boundary detecting rules was proposed. Firstly, the hidden entity hint character messages were obtained through a statistical method; secondly, statistical word indicators and their implications were interpreted with a granularity of character; thirdly, entity boundary detecting rules was proposed based on the entity hint characters and statistical word indicators; finally, a method for identifying threshold values in rules was proposed based on empirical risk minimization. In the comparison experiments with character-based CRF models, the overall precision, recall and F1 score were increased by 1.61%, 2.54% and 2.08% respectively, which validated the efficiency of the entity boundary detecting rule. The proposed method can be used in e-commerce Information Retrieval (IR), e-commerce Information Extraction (IE) and query intention identification, etc.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术协会
  • 主办单位:四川省计算机学会中国科学院成都分院
  • 主编:张景中
  • 地址:成都市人民南路四段九号科分院计算所
  • 邮编:610041
  • 邮箱:xzh@joca.cn
  • 电话:028-85224283
  • 国际标准刊号:ISSN:1001-9081
  • 国内统一刊号:ISSN:51-1307/TP
  • 邮发代号:62-110
  • 获奖情况:
  • 全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:53679