东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

央金藏文分词系统

ISSN号：1003-0077
期刊名称：《中文信息学报》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]厦门大学人工智能研究所,福建厦门361005, [2]西北民族大学机器翻译研究所,甘肃兰州730030
相关基金：福建省自然科学基金资助项目（2006J0043）; 福建省重点科技项目（2006H0038）; 国家863资助项目（2006AA010108）; 国家社科基金重点项目（05AYY001）

作者：史晓东[1], 卢亚军[2]

关键词：藏文分词, 自然语言处理, HMM, Tibetan segmentation, natural language processing, HMM

中文摘要：

藏文分词是藏文信息处理的一个基本步骤,该文描述了我们将一个基于HMM的汉语分词系统Segtag移植到藏文的过程,取得了91%的准确率。又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。

英文摘要：

This paper describes the porting of a Chinese segmentation system to handle Tibetan.The F-measure of the new Yangjin system is above 91% over a test corpus although the training corpus is relatively small.It also describes more processing upon error analysis which led to further improvement.

同期刊论文项目