位置:成果数据库 > 期刊 > 期刊详情页
基于优化最大匹配与统计结合的汉语分词方法
  • ISSN号:1007-791X
  • 期刊名称:燕山大学学报
  • 时间:0
  • 页码:124-129
  • 语言:中文
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]燕山大学信息科学与工程学院
  • 相关基金:国家自然科学基金资助项目(60773100)
  • 相关项目:DAS模型下视图发布安全问题的研究
中文摘要:

汉语自动分词是中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题。基于词典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频计算耗费时间。本文提出优化最大匹配与统计结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略。然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率。最后,基于分词算法实现中文分词系统,并通过实验对算法进行了分析和验证。

英文摘要:

Chinese automatic segmentation is the precondition of Chinese information processing. A primary problem of Chinese information processing is how to improve segmentation efficiency. The segmentation method based on dictionary and statistics is main method of present segmentation technology; the former can not deal with ambiguity and the latter need a large amount of time to calculate word frequency. A method based on optimization maximum matching integrated with statistics is proposed. The method uses the se...

同期刊论文项目
期刊论文 91 会议论文 9 专利 1
同项目期刊论文
期刊信息
  • 《燕山大学学报》
  • 北大核心期刊(2014版)
  • 主管单位:河北省教育厅
  • 主办单位:燕山大学
  • 主编:张福成
  • 地址:河北省秦皇岛市燕山大学期刊社
  • 邮编:066004
  • 邮箱:xuebao@ysu.edu.cn
  • 电话:0335-8057043
  • 国际标准刊号:ISSN:1007-791X
  • 国内统一刊号:ISSN:13-1219/N
  • 邮发代号:18-73
  • 获奖情况:
  • 2009年获2004-2008年度河北省教育系统优秀期刊奖
  • 国内外数据库收录:
  • 美国化学文摘(网络版),中国中国科技核心期刊,中国北大核心期刊(2014版)
  • 被引量:3409