位置:立项数据库 > 立项详情页
基于DOM树语义修剪的藏文Web信息提取算法研究
  • 项目名称:基于DOM树语义修剪的藏文Web信息提取算法研究
  • 项目类别:地区科学基金项目
  • 批准号:60763010
  • 申请代码:F0206
  • 项目来源:国家自然科学基金
  • 研究期限:2008-01-01-2008-12-31
  • 项目负责人:珠杰
  • 负责人职称:副教授
  • 依托单位:西藏大学
  • 批准年度:2007
中文摘要:

随着互联网的普及和藏文信息技术的不断发展,形成了大量的藏文网站。当前,藏文Web已成为人们获取藏文信息的主要渠道之一。为了使能够提供藏文网页的搜索引擎服务功能,在本项目中进行了藏文Web信息提取算法研究。首先根据藏文"音节点"的统计特征,通过建立和修剪DOM树,进行了藏文信息提取算法的研究;其次根据藏文语法和语义特征,进行了藏文分词的内容研究;最后研究了网页抓取过程中藏文网页的识别问题和编码转换问题。

结论摘要:

英文主题词Tibetan Web Information Extraction;DOM tree;Syllable Dot;Tibetan Segmentation


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 5
  • 1
  • 0
  • 0
  • 0
相关项目
珠杰的项目