新疆少数民族语言多文种信息资源十分丰富、源远流长,随着多文种信息电子化和网络化迅速发展,少数民族文网站层出不穷,网上信息急剧增长。随之而来的问题是由于缺乏好的搜索引擎,快速、准确、全面、方便地搜索并获取有用的多文种网络信息是信息时代的要求,是面临的一个急待解决的重要问题。目前国内外的众多研究者已对信息检索技术展开了深入研究,提出了很多算法,但还没针对新疆多民族语言信息搜索技术展开任何系统地研究工作。本项目拟以语言模型为框架,以实现维、哈、柯文搜索引擎主要部件为目标,应用概率统计、数据挖掘、网络爬行、计算语言学等理论与技术,针对少数民族语言特点系统地研究维、哈、柯文词干析取、信息检索模型、检索结果排名模型和构建维、哈、柯文关联词典的构建等进行研究,解决实现高效、高性能维、哈、柯文搜索引擎的关键技术,实现维、哈、柯文搜索引擎原型。
TidyNet;word grouping;language model;inverted index;ranking
以通用爬虫技术建立了维、哈、柯文Web信息获取平台,统计现有国内维、哈、柯文网站,建立了爬虫地址库,收集了大量Web实验数据。较深入的研究基于标签树的网页主题信息抽取方法,并利用基于Microsoft .Net 框架的标签树构造工具TidyNet开源工具来建立网页集的标签树,实现标签树元集的统计筛选算法,有效提取维、哈、柯文网页正文内容信息。针对网络文本的三种维吾尔文非Unicode或非标准Unicode编码情况,建立了字符编码转换规则表,并实现了基于规则的维吾尔文字符编码方法。针对维吾尔文传统分词方法的缺陷和不足,研究并实现了基于频繁模式挖掘的维吾尔文智能组词方法,与维吾尔文传统分词(以空格作为自然分隔符进行分词)完全不同的方法从文本中提取出语义完整而独立的语言单元(多词关联模式),并以这种关联模式来结构化表示文本。为了避免硬盘读写而加速搜索,我们将内存Hash作为数据结构,在内存建立倒排索引;为了避免内存臃肿问题的出现,我们提出一种基于语言模型的分词方法来大大缩小词汇表规模,从而不仅达到了压缩索引的目的,而在一定程度上解决了歧义问题,明显提高了查准率。查询排序方面,我们在传统TFIDF的基础上,用检索词的位置加权系数对权值进行调整,综合考虑检索词权重、检索词在文档中的位置、相互距离、顺序以及维吾尔文单词相似度等因素的贡献,进行了用户查询与Web文档相似度度量,明显提高了搜索引擎对查询结果的排序能力。对于双数组Trie树(Double-Array Trie)算法在构造方面提出了一种优化策略,即在用Trie树构造数组的时候,优先处理分支结点数更多的结点。基于该优化算法实现了一个维吾尔文词典管理程序,与利用其他索引机制的词典对比,利用优化的双数组Trie 树(Double-Array Trie)算法的词典不仅在查询速度上优于用其他索引机制的词典,而且存储数据的空间占用也比较小。