位置:立项数据库 > 立项详情页
集成噪声数据清洗的中文UGC评论挖掘理论与方法研究
  • 项目名称:集成噪声数据清洗的中文UGC评论挖掘理论与方法研究
  • 项目类别:面上项目
  • 批准号:71071041
  • 申请代码:G011201
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:芦鹏宇
  • 负责人职称:副教授
  • 依托单位:哈尔滨工业大学
  • 批准年度:2010
中文摘要:

随着Web2.0时代的到来,面向UGC的评论挖掘的重要性日渐明显。然而,现有的研究主要集中于对英文在线评论进行分析,针对中文客户评论的相关研究仍处于起步阶段。本研究将采用中国电子商务数据对中文UGC在线产品评论进行分析,探索集成噪声数据清洗的中文UGC评论挖掘的理论与方法。课题的研究工作将主要围绕两个方面展开1)通过对领域评论知识的表示方法、产品特征词汇与评论词汇的抽取及扩展方法、评论词汇的极性标注及其倾向强度判别方法等的研究,提出领域评论知识库的创建理论与方法,填补目前对该理论研究的空白;2)通过对中文UGC的噪声分析与清洗方法、中文在线评论的评论表达式识别方法、评论结果集的集成方法等的研究,建立集成噪声数据清洗的中文UGC评论分析理论与方法,为实现中文评论的在线分析奠定理论基础。本研究的成果将帮助企业深入理解互联网上的客户评论信息,从而提高企业竞争优势。

结论摘要:

目前,面向用户产生内容(User Generated Content, UGC)的评论挖掘的重要性日渐明显。本研究采用中国电子商务数据对中文UGC在线产品评论进行分析,探索集成噪声数据清洗的中文UGC评论挖掘的理论与方法。首先,作为评论挖掘的基础,本研究首先对中文分词方法进行了研究,提出基于词频的长词优先中文分词方法以及词典和语料库词频相结合的长词优先中文分词方法,可以获得较高的准确率和召回率,并可以有效获取长词。其次,在产品特征词的获取方法中,本研究设计实现了一个在无词典条件下对大规模中文文本进行特征词快速抽取的方法,其速度远远快于基于词典的方法。另外,本研究基于Hownet和HMM两种方法,进行了复合短语提取方法的研究,可以用于保证所获取的产品特征词汇的准确性和完整性。第三,为了更好地区分不同词汇所表达的极性倾向强度的差异,本研究采用层次分析方法对评论词汇极性的强弱程度进行排序,对大部分评论的情感倾向极性及极性强度判定都可以提供较好地支持。本研究还提出了针对含有特定修辞格(对比、反语)的中文语句情感倾向性判断的方法,得到了较理想的效果。第四,本研究根据中文的语言和语法特点,确定了中文UGC中所包含的噪声数据的主要类型,并提出了进行噪声处理的主要步骤,可以有效解决噪声数据清洗问题。此外,本研究还提出了一种基于改进DOM树的网页噪声数据处理算法,设计了网页噪声数据处理系统,既可实现在线去噪,也可实现本地下载页面去噪。第五,本研究基于用户的在线评论数据,设计了一种包括嵌套区域内客户意见的分层线性模型,以确定顾客对一家国际连锁餐厅在中国52个地区分店的满意度是否存在差别,并且哪些区域因素有助于解释这种差异。结果表明,在不同地区客户的满意度明显差异。最后,本研究提出了基于Tag改进的协同过滤算法,并针对个性化推荐过程中在进行多信息集成的时涉及到的信息优化问题进行了研究,提出了有系数的二次比率问题之和的全局优化算法以及一类分布优化问题的线性方法。此外,本研究还提出了基于时间片段的多IT项目人力资源调度问题求解方法。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 4
  • 1
  • 0
  • 0
  • 0
相关项目
期刊论文 23 会议论文 3 获奖 1 专利 3
芦鹏宇的项目