当前,手机短信在日常联络、节日祝福、天气预报、股市行情、新闻简报、短信小说等越来越多的方面为人们提供便利服务。但另一方面,非法广告、诈骗信息、色情信息、惑众谣言等有害内容也在通过短信大量传播。随着短信社会作用的日益增大,对其进行有效的监管是非常必要的。同时,短信文本中大量存在的省略、指代、简化、用词另类、语法随意等现象也对智能文本处理技术提出了新的挑战。本项目在现有的文本分类与过滤技术的基础上,研究短信的分类与过滤,为短信的自动监管提供必要基础。主要研究内容包括:面向监管需求的短信分类体系;面向分类与过滤的短信表示模型;自适应短信过滤机制与算法;短信数据库建立等。本项目将重点在短信语言模型、特征补偿、特征降维、增量学习、反馈学习等方面进行理论和方法的创新。
当前,手机短信在日常联络、节日祝福、天气预报、股市行情、新闻简报、短信小说等越来越多的方面为人们提供便利服务。但另一方面,非法广告、诈骗信息、色情信息、惑众谣言等有害内容也在通过短信大量传播。随着短信社会作用的日益增大,对其进行有效的监管是非常必要的。本项目的目的是研究短信的分类与过滤的基本算法,为短信的自动监管提供必要基础。本项目在短信库建设、短信聚类分类及过滤模型、文本特征降维、短信分类及过滤原型系统开发等方面取得了多项高水平的研究成果。发表论文16篇,包括国际顶级刊物IEEE TPAMI 和国际顶级会议ACM SIGIR各1篇,SCI收录3篇,EI收录11篇,ISTP收录6篇。获得国家发明专利1项,获国际学术奖2项。建成一个包含150万条短信的语料库。