位置:成果数据库 > 期刊 > 期刊详情页
电子商务商品归一化方法研究
  • ISSN号:0254-4164
  • 期刊名称:计算机学报
  • 时间:2014
  • 页码:312-325
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]华东师范大学软件学院,上海200062, [2]复旦大学计算科学技术学院,上海200433, [3]复旦大学上海市智能信息处理实验室
  • 相关基金:本课题得到国家自然基金(61103039,61232002),国家“九七三”重点基础研究发展规划项目基金(2012CB316200),国家“八六三”高技术研究发展计划项目基金(2012AA011003)资助.
  • 相关项目:支持WEB服务搜索的情境数据管理
中文摘要:

电子商务网站中不断增长的商品数量和商品规模对数据管理提出了新的挑战,其中一项重要基本任务是商品归一化,即识别属于同一个客观实体的所有商品.商品归一化的实现有助于提高商晶搜索的准确性、改善用户的体验.但由于在电子商务网站中,特别是在C2C(Customer—to—Customer)模式下,商品信息的数据质量很低且缺乏统一的模式定义规范,导致已有的商品归一化方法难以适用.针对这一问题,文中没计了一种将数据集成、数据清理和商品归一化相结合的混合框架.该框架首先基于图的方法进行模式集成,然后利用商晶的描述信息进行数据清理,从而得到数据质量更高且模式统一的商品信息数据;在数据集成和数据清理之后,利用逻辑斯蒂¨归(Logistic regression)模型训练分类器,从而得到商品之间的相似度矩阵,最后对相似度矩阵聚类实现商品归一化.通过与已有的方法在真实数据上进行对比实验,验证了文中提出的方法的有效性.

英文摘要:

The booming of E-commerce in terms of product variety and quantity brings new chal lenges to data management, one of which is Product Normalization. Product normalization is to determine whether products are referring to the same underlying entity. It is a fundamental task of data management in E-commerce, especially for C2C (Customer-to-Customer) model, which can improve search functionality and user's shopping experience. However, Product normaliza tion in E-market is difficult because the data is full of noise and without a uniform schema, mak ing the existed normalization methods inefficient. In this paper, we propose a hybrid framework,experiments on a real-world data and the experimental results confirm the effectiveness of our design by comparing with the existing methods.

同期刊论文项目
期刊论文 36 会议论文 16 获奖 4 著作 1
同项目期刊论文
期刊信息
  • 《计算机学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国计算机学会 中国科学院计算技术研究所
  • 主编:孙凝晖
  • 地址:北京中关村科学院南路6号
  • 邮编:100190
  • 邮箱:cjc@ict.ac.cn
  • 电话:010-62620695
  • 国际标准刊号:ISSN:0254-4164
  • 国内统一刊号:ISSN:11-1826/TP
  • 邮发代号:2-833
  • 获奖情况:
  • 中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:48433