东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

中文分词中歧义切分处理策略

期刊名称：山西大学学报，2007.5,30(2):163-167
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]山西大学计算机与信息技术学院计算智能与中文信息处理省部共建教育部重点实验室,山西太原030006
相关基金：国家自然科学基金（60473139）;山西省自然科学基金（20051034）致谢感谢哈工大信息检索研究室提供的《哈工大信息检索研究室同义词词林扩展版》的1.0版今（HIT IR-Lab Tongyici Cilin （Extended））.
相关项目：大规模中文文本语料库分词与词性标注一致性检验技术研究

作者：郑家恒、张剑锋、谭红叶

关键词：自动分词, 伪歧义, 真歧义, 概率模型, automatic word segmentation , pseudo-ambiguity , true-ambiguity , probabilistic model

中文摘要：

文章试图从歧义字段本身的特点,即从伪歧义与真歧义这两个角度,以规则库为辅助手段,构建相应概率统计模型来解决歧义字段切分的问题.概率模型中特征的选取考虑了相邻词语和相邻词语的语义信息.实验表明该模型在解决歧义切分问题上是有效的.

英文摘要：

We build a probabilistic statistical model combined with a rule base to solve the problem. The model is built based on the characters of ambiguity strings, including true-ambiguity and pseudoambiguity,and the semantic information of the neighboring words is considered in the feature selection. The relative experimental results show that the model is effective in the segmentation of ambiguity string.

同期刊论文项目