位置:立项数据库 > 立项详情页
蒙古文搜索引擎技术研究
  • 项目名称:蒙古文搜索引擎技术研究
  • 项目类别:地区科学基金项目
  • 批准号:61063018
  • 申请代码:F020511
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:王俊义
  • 负责人职称:教授
  • 依托单位:内蒙古大学
  • 批准年度:2010
中文摘要:

蒙文信息资源十分丰富、源远流长,随着蒙文信息电子化和网络化迅速发展,蒙古文网站层出不穷,网上蒙古文信息急剧增长。随之而来的问题是由于缺乏好的搜索引擎而致使蒙古文信息搜索成为了瓶颈。目前所使用的搜索引擎是借用或简单改造其他文字的搜索引擎,远不能满足、也不可能满足蒙古文信息检索的需求。本项目拟以语言模型为框架,以实现蒙古文搜索引擎主要部件为目标,应用概率统计、数据挖掘、网络爬行、计算语言学等理论与技术,针对蒙古文的特点系统地研究蒙古文词干析取、蒙古文信息检索模型、检索结果排名模型和构建蒙古文词关联词典等,解决实现高效的、高性能的蒙古文搜索引擎的关键应用技术,实现一个蒙古文搜索引擎原型。

结论摘要:

蒙古文数字化的发展十分迅速,蒙古文网站和图书馆蒙古文数字化大量涌现,网上蒙古文信息急剧增长。但是长时间以来,蒙古文网站和数字化图书馆的有关蒙古文信息检索技术一直搬用英文或汉文的搜索引擎,蒙古文是粘着的、词缀结构复杂的一种文字,其信息检索具有其特殊性,借用和简单的改进其他现有搜索引擎是远不能满足、也不可能满足蒙古文信息检索的需求。因此蒙古文信息检索技术成为蒙古文网站与蒙古文信息应用的瓶颈问题。本项目围绕该问题开展研究蒙古文信息检索的关键技术问题。爬行获取近5万个蒙古文网页,进行预处理形成蒙古文网页库和TREC格式的文本库。基于该文本库,通过统计方法及大量的实验构建了一个基本的蒙古文停用词表。基于蒙古文构词法和统计方法研究实现了适合蒙古文信息检索的词干提取技术和工具。提出一种关联词发现方法,并用此方法构建了蒙古文关联词词典。提出基于语言模型的蒙古文信息检索模型,并运用LEMUR工具集建立索引和实现了这些模型。提出了正负反馈问句扩展模型,设计实现了密度聚类算法,用该算法区分正负反馈文档。基于上述理论、技术和实现的软件工具(蒙古文网页爬行、预处理、词干提取、关联词词典构造、分类等)实现了一个蒙古文搜索引擎原型。为今后更深入的相关研究和产品化奠定了良好的基础,也可为同行的研究工作提供技术支持和借鉴。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 1
  • 5
  • 0
  • 0
  • 0
相关项目
期刊论文 8 会议论文 5
期刊论文 19 会议论文 5 获奖 2
期刊论文 4 会议论文 1 获奖 1 著作 2
期刊论文 21 会议论文 3 著作 1
王俊义的项目
期刊论文 2 会议论文 2 著作 3