短文本分类就是对长度短的文本(通常文本长度小于160字符)进行自动分类。短文本分类技术在手机短信息过滤和客户评论自动分类等方面具有重要的应用前景。本项目进行了以下几个方面的研究并取得了较好的成果(1)以半自动的方式,建立了由12个不同领域的100万篇新闻评论构成的中文短文本语料集(训练集和测试集);(2)研究了如何利用外部资源(专家构造语料(知网)和机器自动构造语料(训练集))中的可用信息来扩展短文本所描述概念,建立词语对之间关系的技术和方法;(3)研究了特征及特征间语义关系的选择方法;(4)研究了有效利用概念扩展后的短文本所包含的有效信息进行分类的分类模型和分类方法;(5)设计并实现了一个较完整的中文短文本分类原型系统,并已申请国家专利一项。另外,本项目的完成也推动了其他自然语言处理问题(二次信息检索和语义消歧)的研究。
英文主题词Chinese short text categorization;relation among Chinese word pair;short message filtering; muti-information fusion