位置:立项数据库 > 立项详情页
维吾尔文网络信息内容分析与理解的关键理论和技术研究
  • 项目名称:维吾尔文网络信息内容分析与理解的关键理论和技术研究
  • 项目类别:地区科学基金项目
  • 批准号:61063022
  • 申请代码:F020606
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:吐尔地·托合提
  • 负责人职称:副教授
  • 依托单位:新疆大学
  • 批准年度:2010
中文摘要:

面对迅速增长的WEB数据,如何搜集并从中发现信息,对信息进行分析和理解、提取、组织和处理、如何针对特定的需求获取最新的信息、如何区分有用的信息和无用的"垃圾"信息、如何管理网络信息的传播逐渐成为当前信息科学和技术领域面临的一大挑战。本课题在中英文的新理论、新方法和新技术的基础上,从维吾尔文语言文字特点出发,围绕网络内容分析及理解所涉及的关键理论和技术,开展维吾尔文网路信息的收集和整合(网页采集,文本提取及精化,编码转换,分词,词干切分),文本表示(维吾尔文文本特征提取,特征选取,文本结构化),文本分析(分类,聚类)以及基于统计的维吾尔文网页文档自动摘要等四个方面的研究,建立维吾尔文网络信息内容分析与理解理论体系及技术基础,并通过研发有关算法、工具和平台在相关领域中应用与验证本课题取得的研究成果。

结论摘要:

以通用爬虫技术搭建了维吾尔文Web信息获取平台,统计现有国内维吾尔文网站,建立了爬虫地址库,收集了大量Web实验数据。较深入的研究基于标签树的网页主题信息抽取方法,并利用基于Microsoft .Net 框架的标签树构造工具TidyNet开源工具来建立网页集的标签树,实现标签树元集的统计筛选算法,有效提取维吾尔文网页正文内容信息。针对Web文本的三种维吾尔文非Unicode或非标准Unicode编码情况,建立了字符编码转换规则表,并实现了基于规则的维吾尔文字符编码转换方法。针对维吾尔文传统分词方法的缺陷和不足,提出了语义分词的新思路并实现了相应的语义分词算法,从而根本改变了维吾尔文分词的传统概念。将向量空间模型作为主要的文本表示模型,通过语义分词获取的语义词特征来表征文本,提高了特征项本身的质量,降低了特征空间维数。在语义词特征集的基础上,又提出了一种无监督特征选择算法UMRMR-UFS,从而达到了获取最优特征子集的目的。研究了文本分类技术方法及相关算法,实现了一个多种预处理、多种特征选择及多种分类器(KNN,SVM,NB)可选的维吾尔文文本分类系统。研究了最典型的聚类算法K-means和GAAC,在两种算法的优缺点上找到了一种巧妙的结合,从而设计并实现了一种K-means和GAAC结合的维吾尔文文本聚类算法,结合算法在大规模文本聚类中体现出比单独K-means和GAAC更优越的综合性能。研究了基于统计的自动摘要技术及基于图的文摘算法LexRank,针对LexRank计算文摘句权重时的局限性,引入了Textrank算法,并用关键词权重来调整文摘句权重,从而实现了一种基于LexRank和Textrank结合的维吾尔文自动摘要提取算法。最终,将本课题所取得的研究成果(算法、工具和平台等)嵌入到一个应用平台上,搭建了一个维吾尔文网络信息内容分析与理解系统平台——《维吾尔文网络舆情监测预警系统》。经过项目实施,培养博士生1人,硕士生4人,青年教师2人,构建了多个资源库,开发了多个算法,工具和平台,已发表学术论文8篇(EI收录2篇),计算机软件著作权登记4项。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 10
  • 1
  • 0
  • 0
  • 0
相关项目
期刊论文 5 会议论文 14 专利 2
期刊论文 34 会议论文 4 获奖 2 著作 2
吐尔地·托合提的项目