藏文信息处理目前面临着基础语料匮乏的困境,互联网为我们提供了大量的藏文文本资源,是藏文语料的一个重要来源。本项目将利用网络爬虫与藏文自动编码识别技术,自动从海量的互联网资源中挖掘藏文资源,并配合人工分析,考察藏文文本资源的分布情况和存在形式,发现有利用价值的藏文文本资源;我们将建立藏文搜索引擎原型系统,对互联网藏文资源进行有效索引,以便于挖掘包含预设模式的网络资源;将研究藏文网页的全自动篇章抽取技术和汉藏双语平行语料的自动发现技术,并自动采集藏文篇章语料和汉藏双语平行语料;本项目将建立藏文文本资源URL库、藏文篇章语料库、互联网藏文词(短语)库、汉藏双语平行语料库,并基于大规模藏文语料进行词频统计、训练藏文语言模型,为藏文信息处理的研究提供基础资源。
英文主题词Tibetan;Corpus;Data mining;Tibetan word segmentation;Part-of-speech tagging