网络己成为公众表达民意、讨论公共事务、公开表述对社会现象的看法、意见、情绪和态度,参与经济社会、政治生活的公共平台以及舆情产生和扩散传播的一个重要空间的今天,如何从海量WEB数据中主动获取热点、焦点话题,分析和理解并从中发现舆情信息,如何及时发现及跟踪舆情热点是当前信息科学和技术领域面临的一大挑战。本课题在中英文的新理论、新方法和新技术的基础上,从维吾尔文语言文字特点出发,围绕网络舆情挖掘所涉及的关键理论和技术,开展维吾尔文WEB信息的采集及处理(WEB数据源获取,WEB页面文本提取及精化,文本编码转换,新老文字转换,分词,词干切分),文本表示(文本特征提取,文本结构化),舆情识别(舆情分类,聚类),舆情分析(舆情观点提取,舆情观点倾向性分析)等4个方面的研究,建立维吾尔文网络舆情信息挖掘的理论体系及技术基础,并通过研发有关算法、工具和试验平台,在相关领域中应用与验证本课题取得的研究成果。
intelligent gathering;text conversion;semantic segmentation;named entity recognition;sentiment analyses
本课题从维吾尔文语言文字特点出发,围绕网络舆情挖掘所涉及的关键理论和技术,开展了以下几个方面的探索性、创新性研究。研究了增量化采集和动态访问控制环境下的Web主动探测与智能采集方法,搭建了大规模分布式采集系统。建立了新老文字转换规则库,研究并实现了一种基于规则的新、老文(维吾尔语拉丁文转维吾尔语阿拉伯文)自动转换方法。针对维吾尔文传统分词方法的缺陷和不足,提出了语义分词的新思路并实现了相应的语义分词算法,以语义词作为特征并提出一种无监督特征选择方法选取特征子集来表示文本,从而明显提高了文本处理算法性能。研究几种经典文本分类器(KNN,SVM,NB),通过实验对比为维吾尔文选取最佳分类器并确定各类参数。研究了最典型的聚类算法K-means和GAAC,在两种算法的优缺点上找到了一种巧妙的结合,从而设计并实现了一种K-means和GAAC结合的维吾尔文文本聚类算法,结合算法在大规模文本聚类中体现出比单独K-means和GAAC更优越的综合性能。建立了维吾尔文情感词典,研究了维吾尔文区分性关键词提取方法,并在此基础上实现了维吾尔文文本情感分类方法。根据维吾尔文命名实体结构特点,建立了维吾尔文命体库(人名975660个,地名193122个,组织机构名142889个),还有首词库、中间词库和特征词库等,研究了基于规则和条件随机场的维吾尔地名、人名识别方法。研究了基于统计的自动摘要技术及基于图的文摘算法LexRank,针对LexRank计算文摘句权重时的局限性,引入了Textrank算法,并用关键词权重来调整文摘句权重,从而实现了一种基于LexRank和Textrank结合的维吾尔文自动摘要提取算法。经过项目实施,培养博士生2人,硕士生6人,青年教师2人,构建了多个资源库,开发了多个算法,工具和平台,已发表学术论文10篇(EI收录3篇),计算机软件著作权登记6项。最终,将本课题所取得的研究成果(算法、工具和平台等)嵌入到一个应用平台上,搭建了一个维吾尔文网络舆情挖掘系统平台——《维吾尔文网络舆情监测预警系统》,已为我区相关部门提供网络舆情监测服务,为网监工作提供一种自动化手段,起到了积极作用。