位置:立项数据库 > 立项详情页
不良文本内容在线感知的多粒度语义模式研究
  • 项目名称:不良文本内容在线感知的多粒度语义模式研究
  • 项目类别:面上项目
  • 批准号:61073170
  • 申请代码:F020805
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:曾剑平
  • 负责人职称:副教授
  • 依托单位:复旦大学
  • 批准年度:2010
中文摘要:

互联网上的不良文本内容检测具有明确的需求背景,但在语义模式表示、快速检测等理论和技术方面具有一定的挑战性。现有方法主要依赖于不良关键词列表或简单语义模式,在面对具有比较复杂语义的不良内容感知时,其检测能力受到明显限制。本项目以提升不良模式的语义描述能力及建立高效感知的理论与技术基础为研究目标,从研究内容及基础方法两方面进行创新研究。提出描述不良内容的多粒度语义模式,从不良模式的特征粒度、语义相似及背景话题三方面探索增强不良模式的语义处理能力的方法,从模式分布及模式转移两方面揭示不良模式在各种类型背景话题下的统计特性,提出解决未知模式的有效检测的新方法,阐明基于多粒度语义模式进行不良内容在线快速感知的启发式机制。项目研究为寻找具有更强语义描述能力的不良模式及建立快速感知方法提供理论依据及技术手段,研究成果可为国家相关管理部门进行Web不良文本内容的细粒度管控提供新的技术、方法及理论保障。

结论摘要:

互联网上的不良文本内容检测具有明确的需求背景,但在语义模式表示、快速检测等理论和技术方面具有一定的挑战性。本项目对不良文本内容检测中的多粒度语义模式及关键技术进行研究,具体研究内容主要包括面向不良文本内容感知的语义模式形式化描述方法、不良语义模式的构造方法、不良语义模式的统计特性、基于不良语义模式的内容在线感知方法、不良文本内容在线感知的原型系统设计五个方面。 项目研究按计划顺利进行并完成课题预定的目标,构造了用于不良文本检测试验的数据集,在不良模式表达方面,提出了不良模式的逻辑结构形式及构造算法、频繁模式挖掘的不良模式表示、模式背景话题结构描述及其构造方法。在不良模式运用及不良信息内容检测方面,提出了不良模式的相似性计算、不良模式语义推理方法、基于多粒度话题模型场景的检测技术、基于频繁模式的检测算法以及对不良模式的自适应检测方法,提出了强化不良模式关联的自适应建模方法。在检测平台技术及应用方面,在文本流处理和大规模文本测试中的关键问题进行了进一步研究,对研究中所提出的算法和模型在微软LYNC即时消息过滤和上市公司负面信息采集分析中进行了应用研究. 项目组围绕设定的五个研究内容进行了深入的理论分析、算法设计、实验验证及应用研究。在重要国际期刊和学术会议上发表相关论文14篇,其中7篇被SCI检索,9篇被EI检索,超过预期目标。根据Google Scholar的引用统计,所发表的论文总的被引用次数是26次,引用的同行包括来自滑铁卢大学电子和计算机工程系、美国Texas A&M University计算机科学工程系等知名大学的研究员。申请三项发明专利,其中,一项为授权专利。培养了博士生一名,硕士生4名,均已顺利毕业。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 8
  • 6
  • 3
  • 0
  • 0
相关项目
期刊论文 19 会议论文 15
期刊论文 23 会议论文 6 专利 2
期刊论文 22 会议论文 5 获奖 1
期刊论文 6 会议论文 10
期刊论文 16 会议论文 13 获奖 2
曾剑平的项目