互联网藏文文本资源挖掘及语料抽取关键技术研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

互联网藏文文本资源挖掘及语料抽取关键技术研究

项目名称：互联网藏文文本资源挖掘及语料抽取关键技术研究
项目类别：青年科学基金项目
批准号：61202219
申请代码：F020604
项目来源：国家自然科学基金
研究期限：2013-01-01-2015-12-31

项目负责人：刘汇丹
依托单位：中国科学院软件研究所
批准年度：2012

中文摘要：

藏文信息处理目前面临着基础语料匮乏的困境，互联网为我们提供了大量的藏文文本资源，是藏文语料的一个重要来源。本项目将利用网络爬虫与藏文自动编码识别技术，自动从海量的互联网资源中挖掘藏文资源，并配合人工分析，考察藏文文本资源的分布情况和存在形式，发现有利用价值的藏文文本资源；我们将建立藏文搜索引擎原型系统，对互联网藏文资源进行有效索引，以便于挖掘包含预设模式的网络资源；将研究藏文网页的全自动篇章抽取技术和汉藏双语平行语料的自动发现技术，并自动采集藏文篇章语料和汉藏双语平行语料；本项目将建立藏文文本资源URL库、藏文篇章语料库、互联网藏文词（短语）库、汉藏双语平行语料库，并基于大规模藏文语料进行词频统计、训练藏文语言模型，为藏文信息处理的研究提供基础资源。

中文主题词：藏文；语料库；数据挖掘；藏文分词；词性标注

结论摘要：

英文主题词Tibetan；Corpus；Data mining；Tibetan word segmentation；Part-of-speech tagging

成果综合统计