位置:立项数据库 > 立项详情页
维吾尔文不良信息过滤关键技术的研究
  • 项目名称:维吾尔文不良信息过滤关键技术的研究
  • 项目类别:地区科学基金项目
  • 批准号:61063043
  • 申请代码:F020805
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:帕力旦·吐尔逊
  • 负责人职称:副教授
  • 依托单位:新疆大学
  • 批准年度:2010
中文摘要:

内容过滤是当前互联网信息安全的研究热点, 也是所面临的挑战之一。互联网迅速普及, 但其内容存在大量不良信息, 内容过滤就是对其进行筛选, 取其精华、去其糟粕, 是对传播的信息进行的审计行为。虽然最近几年维吾尔文信息技术得到了充足的发展空间。但是,维吾尔文不良信息过滤相关的技术未被得到重点研究,给境外不法分子利用互联网进行反动宣传留下了漏洞。本项目针对该问题,以真实网络信息作为研究对象,围绕维吾尔文不良信息过滤技术,对编码统一、被变形的单词、不良文本分类技术、利用敏感词组合过滤不良文本等基础技术进行深入研究,为研发维吾尔文不良信息过滤系统奠定基础。通过本项目构建100万次词人工校对的维吾尔文词法标注网络文本语料库,与公安部门合作构建维吾尔文不良信息语料库,研发维吾尔文不良信息检索过滤实验系统。

结论摘要:

本项目中,围绕维吾尔文不良信息过滤系统所需要的相关技术,对维吾尔文网页收集与争化、语种识别、编码统一、拼写检查、候选词产生、文本分类、舆情控制等相关技术开展了研究,并取得了一些成绩。通过本项目的实施,构建100万次词人工校对的维吾尔文词法标注网络文本语料库,与公安部门合作构建维吾尔文不良信息语料库,研究与实现了统计和规则相结合的维吾尔文语种识别系统、维吾尔文四种文字相互转换系统,提出维吾尔文拼写检查方法、候选词产生算法,通过开源工具对文本分类及敏感信息过滤进行实验,研发维吾尔文不良信息检索过滤实验系统。通过本项目,为维吾尔文不良信息过滤、舆情监控等奠定了基础。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 13
  • 5
  • 0
  • 0
  • 0
相关项目
期刊论文 41 会议论文 33 获奖 5 著作 3
期刊论文 28 会议论文 3 著作 1
帕力旦·吐尔逊的项目