位置:成果数据库 > 期刊 > 期刊详情页
维吾尔文搜索引擎中的压缩技术
  • ISSN号:1009-3044
  • 期刊名称:《电脑知识与技术:学术交流》
  • 时间:0
  • 分类:TP301[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046
  • 相关基金:国家自然科学基金项目(61063022,61163033).
中文摘要:

以大规模网络维吾尔文文本的自动分类技术研究为背景,设计模块化结构的维吾尔文本分类系统,在深入调研基础上选择NaiveBayes算法为分类引擎,用.C#实现分类系统。预处理中,结合维吾尔语的词法特征,通过引入词干提取方法大大降低特征维数。在包含10大类共计3000多个较大规模文本语料库基础上给出分类实验结果,再通过x2统计方法选择不同数目的特征,也分别给出分类实验结果。结果表明,预处理后的维吾尔文特征空间中只有1%-3%特征是最佳的,因而进一步确定哪些是最佳特征或降低特征空间维数是有可能的。

英文摘要:

In this paper, taking the automatic classification of large-scale Uyghur text collected from the network as the research background, we have designed the Uyghur text classification system with modular structure, and based on through investigations, we chose the Naive Bayes algorithm as the classification engine, and have implemented the classification system using C-sharp. In the preprocessing part, combining with the lexical characteristics of Uyghur language and by introducing the stem extraction method into the procedure, we have greatly reduced the whole feature dimensions. The classification experimental results on the basis of large-scale text corpus includes more than 3000 documents which are belongs to different 10 categories are given, and the results of the classification experiments for different number of features selected by using x2 statistical method are also given respectively. Results show that only 1% to 3% of the features in Uyghur feature space are critical, so it is possible to determine which ones are the best features or to further reduce the feature space dimensions.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《电脑知识与技术:学术交流》
  • 主管单位:安徽出版集团有限责任公司
  • 主办单位:时代出版传媒股份有限公司 中国计算机函授学院
  • 主编:
  • 地址:安徽合肥市濉溪路333号
  • 邮编:230041
  • 邮箱:xsjl@dnzs.net.cn
  • 电话:0551-65690964 65690963
  • 国际标准刊号:ISSN:1009-3044
  • 国内统一刊号:ISSN:34-1205/TP
  • 邮发代号:26-188
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:23925