位置:成果数据库 > 期刊 > 期刊详情页
一种快速中文分词词典机制
  • ISSN号:2095-6134
  • 期刊名称:《中国科学院大学学报》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学技术大学电子工程与信息科学系,合肥230027, [2]中国科学院研究生院信息安全国家重点实验室,北京100049
  • 相关基金:国家高技术研究发展计划(863)(2006AA01Z454)、国家信息安全242计划(2005B23)和国家自然科学基金(60573015)资助
中文摘要:

通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率.

英文摘要:

With the development of global networking through Internet, the amount of articles in Chinese or other native languages is increasing rapidly. As the lack of explicit separator, word segmentation is a precondition for the processing of these character-based languages and thus it affects the whole system in performance. In this paper, we propose a new solution for Chinese word segmentation problem based on Lexicon named double-character-and-long- word-hash-indexing (DCLWHI). Compared with traditional lexicon mechanism, DCLWHI improves the speed and efficiency of word segmentation without extra memory spending and gains the same accuracy.

同期刊论文项目
期刊论文 13 会议论文 5
同项目期刊论文
期刊信息
  • 《中国科学院大学学报》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院大学
  • 主编:石耀霖
  • 地址:北京玉泉路19号(甲)
  • 邮编:100049
  • 邮箱:journal@gucas.ac.cn
  • 电话:010-88256013
  • 国际标准刊号:ISSN:2095-6134
  • 国内统一刊号:ISSN:10-1131/N
  • 邮发代号:82-583
  • 获奖情况:
  • 国内外数据库收录:
  • 中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:416