维吾尔文不良信息过滤关键技术的研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

维吾尔文不良信息过滤关键技术的研究

项目名称：维吾尔文不良信息过滤关键技术的研究
项目类别：地区科学基金项目
批准号：61063043
申请代码：F020805
项目来源：国家自然科学基金
研究期限：2011-01-01-2013-12-31

项目负责人：帕力旦·吐尔逊
负责人职称：副教授
依托单位：新疆大学
批准年度：2010

中文摘要：

内容过滤是当前互联网信息安全的研究热点, 也是所面临的挑战之一。互联网迅速普及, 但其内容存在大量不良信息, 内容过滤就是对其进行筛选, 取其精华、去其糟粕, 是对传播的信息进行的审计行为。虽然最近几年维吾尔文信息技术得到了充足的发展空间。但是，维吾尔文不良信息过滤相关的技术未被得到重点研究，给境外不法分子利用互联网进行反动宣传留下了漏洞。本项目针对该问题，以真实网络信息作为研究对象，围绕维吾尔文不良信息过滤技术，对编码统一、被变形的单词、不良文本分类技术、利用敏感词组合过滤不良文本等基础技术进行深入研究，为研发维吾尔文不良信息过滤系统奠定基础。通过本项目构建100万次词人工校对的维吾尔文词法标注网络文本语料库，与公安部门合作构建维吾尔文不良信息语料库，研发维吾尔文不良信息检索过滤实验系统。

中文主题词：维吾尔文；语种识别；过滤；拼写检查；

英文摘要：

uyghur；language identification；filter；spell check；

英文主题词： uyghur；language identification；filter；spell check；

结论摘要：

本项目中，围绕维吾尔文不良信息过滤系统所需要的相关技术，对维吾尔文网页收集与争化、语种识别、编码统一、拼写检查、候选词产生、文本分类、舆情控制等相关技术开展了研究，并取得了一些成绩。通过本项目的实施，构建100万次词人工校对的维吾尔文词法标注网络文本语料库，与公安部门合作构建维吾尔文不良信息语料库，研究与实现了统计和规则相结合的维吾尔文语种识别系统、维吾尔文四种文字相互转换系统，提出维吾尔文拼写检查方法、候选词产生算法，通过开源工具对文本分类及敏感信息过滤进行实验，研发维吾尔文不良信息检索过滤实验系统。通过本项目，为维吾尔文不良信息过滤、舆情监控等奠定了基础。

成果综合统计