随着互联网的普及和藏文信息技术的不断发展,形成了大量的藏文网站。当前,藏文Web已成为人们获取藏文信息的主要渠道之一。为了使能够提供藏文网页的搜索引擎服务功能,在本项目中进行了藏文Web信息提取算法研究。首先根据藏文"音节点"的统计特征,通过建立和修剪DOM树,进行了藏文信息提取算法的研究;其次根据藏文语法和语义特征,进行了藏文分词的内容研究;最后研究了网页抓取过程中藏文网页的识别问题和编码转换问题。
英文主题词Tibetan Web Information Extraction;DOM tree;Syllable Dot;Tibetan Segmentation