位置:成果数据库 > 期刊 > 期刊详情页
基于LSTM网络的序列标注中文分词法
  • ISSN号:1001-3695
  • 期刊名称:《计算机应用研究》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]上海大学通信与信息工程学院,上海220444, [2]中国科学院上海高等研究院,上海201210, [3]中国科学院大学,北京100049
  • 相关基金:国家自然科学基金资助项目(61471231);中国科学院先导资助项目(XDA06010301)
中文摘要:

当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点.针对以上问题进行了研究,提出基于LSTM(longshort-term memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词.在中文分词评测常用的语料上进行实验对比结果表明,基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LLTM网络模型的方法也更容易推广并应用到其他自然语言处理中序列标注的任务.

英文摘要:

Currently ’ the dominant state-of-the-art methods for Chinese word segmentation are based on character taggingmethods by using traditional machine learning technology. However, there are some disadvantages in the trlearning methods: artificially configuring and extracting features from Chinese texts , high dimension of the dict iotraining time by just exploiting CPUs. This paper proposed an improved method based on long short- work model. It used different tag set and added pre-trained character embeddings to perform Chinese word segmentation. pared with the best result in Bakeoff and state-of-the-art methods, this paper conducted the experiments on commpuses. The results demonstrate that traditional machine learning methods are exceeded by the methowork. By using six-tag-set and adding pre-trained character embedding, the proposed method can reach the relatively highestperformance on Chinese word segmentation. Then, it can greatly reduce the training time of deep neural network model byusing GPUs. Moreover, the methods based on LSTM net-work can easily applied to other sequence label ing tasks in natural lan-guage processing( NLP).

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用研究》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术厅
  • 主办单位:四川省计算机研究院
  • 主编:刘营
  • 地址:成都市成科西路3号
  • 邮编:610041
  • 邮箱:arocmag@163.com
  • 电话:028-85210177 85249567
  • 国际标准刊号:ISSN:1001-3695
  • 国内统一刊号:ISSN:51-1196/TP
  • 邮发代号:62-68
  • 获奖情况:
  • 第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:60049