维、哈、柯多文种信息检索技术研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

维、哈、柯多文种信息检索技术研究

项目名称：维、哈、柯多文种信息检索技术研究
项目类别：专项基金项目
批准号：61142004
申请代码：F020604
项目来源：国家自然科学基金
研究期限：2012-01-01-2012-12-31

项目负责人：维尼拉·木沙江
负责人职称：教授
依托单位：新疆大学
批准年度：2011

中文摘要：

新疆少数民族语言多文种信息资源十分丰富、源远流长，随着多文种信息电子化和网络化迅速发展，少数民族文网站层出不穷，网上信息急剧增长。随之而来的问题是由于缺乏好的搜索引擎，快速、准确、全面、方便地搜索并获取有用的多文种网络信息是信息时代的要求，是面临的一个急待解决的重要问题。目前国内外的众多研究者已对信息检索技术展开了深入研究，提出了很多算法，但还没针对新疆多民族语言信息搜索技术展开任何系统地研究工作。本项目拟以语言模型为框架，以实现维、哈、柯文搜索引擎主要部件为目标，应用概率统计、数据挖掘、网络爬行、计算语言学等理论与技术，针对少数民族语言特点系统地研究维、哈、柯文词干析取、信息检索模型、检索结果排名模型和构建维、哈、柯文关联词典的构建等进行研究，解决实现高效、高性能维、哈、柯文搜索引擎的关键技术，实现维、哈、柯文搜索引擎原型。

中文主题词： TidyNet；组词；语言模型；倒排索引；排序

英文摘要：

TidyNet；word grouping；language model；inverted index；ranking

英文主题词： TidyNet；word grouping；language model；inverted index；ranking

结论摘要：

以通用爬虫技术建立了维、哈、柯文Web信息获取平台，统计现有国内维、哈、柯文网站，建立了爬虫地址库,收集了大量Web实验数据。较深入的研究基于标签树的网页主题信息抽取方法，并利用基于Microsoft .Net 框架的标签树构造工具TidyNet开源工具来建立网页集的标签树，实现标签树元集的统计筛选算法，有效提取维、哈、柯文网页正文内容信息。针对网络文本的三种维吾尔文非Unicode或非标准Unicode编码情况，建立了字符编码转换规则表，并实现了基于规则的维吾尔文字符编码方法。针对维吾尔文传统分词方法的缺陷和不足，研究并实现了基于频繁模式挖掘的维吾尔文智能组词方法，与维吾尔文传统分词（以空格作为自然分隔符进行分词）完全不同的方法从文本中提取出语义完整而独立的语言单元（多词关联模式），并以这种关联模式来结构化表示文本。为了避免硬盘读写而加速搜索，我们将内存Hash作为数据结构，在内存建立倒排索引；为了避免内存臃肿问题的出现，我们提出一种基于语言模型的分词方法来大大缩小词汇表规模，从而不仅达到了压缩索引的目的，而在一定程度上解决了歧义问题,明显提高了查准率。查询排序方面，我们在传统TFIDF的基础上，用检索词的位置加权系数对权值进行调整，综合考虑检索词权重、检索词在文档中的位置、相互距离、顺序以及维吾尔文单词相似度等因素的贡献，进行了用户查询与Web文档相似度度量，明显提高了搜索引擎对查询结果的排序能力。对于双数组Trie树(Double-Array Trie)算法在构造方面提出了一种优化策略，即在用Trie树构造数组的时候，优先处理分支结点数更多的结点。基于该优化算法实现了一个维吾尔文词典管理程序，与利用其他索引机制的词典对比，利用优化的双数组Trie 树(Double-Array Trie)算法的词典不仅在查询速度上优于用其他索引机制的词典，而且存储数据的空间占用也比较小。

成果综合统计

成果类型

数量

期刊论文
会议论文
专利
获奖
著作

期刊论文

维吾尔文后缀树构造算法的设计与实现

维吾尔文小规模Web搜索中一种高效的索引方法

基于频繁模式挖掘的维吾尔文智能组词方法