位置:立项数据库 > 立项详情页
基于特征联想的中文短文本分类方法研究
  • 项目名称:基于特征联想的中文短文本分类方法研究
  • 项目类别:青年科学基金项目
  • 批准号:60703010
  • 申请代码:F0206
  • 项目来源:国家自然科学基金
  • 研究期限:2008-01-01-2010-12-31
  • 项目负责人:樊兴华
  • 负责人职称:教授
  • 依托单位:重庆邮电大学
  • 批准年度:2007
中文摘要:

短文本分类就是对长度短的文本(通常文本长度小于160字符)进行自动分类。短文本分类技术在手机短信息过滤和客户评论自动分类等方面具有重要的应用前景。本项目进行了以下几个方面的研究并取得了较好的成果(1)以半自动的方式,建立了由12个不同领域的100万篇新闻评论构成的中文短文本语料集(训练集和测试集);(2)研究了如何利用外部资源(专家构造语料(知网)和机器自动构造语料(训练集))中的可用信息来扩展短文本所描述概念,建立词语对之间关系的技术和方法;(3)研究了特征及特征间语义关系的选择方法;(4)研究了有效利用概念扩展后的短文本所包含的有效信息进行分类的分类模型和分类方法;(5)设计并实现了一个较完整的中文短文本分类原型系统,并已申请国家专利一项。另外,本项目的完成也推动了其他自然语言处理问题(二次信息检索和语义消歧)的研究。

结论摘要:

英文主题词Chinese short text categorization;relation among Chinese word pair;short message filtering; muti-information fusion


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 18
  • 8
  • 1
  • 0
  • 0
相关项目
樊兴华的项目