位置:成果数据库 > 期刊 > 期刊详情页
基于微博内容的新词发现方法
  • ISSN号:1003-6059
  • 期刊名称:《模式识别与人工智能》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]智能技术与系统国家重点实验室,北京100084, [2]清华信息科学与技术国家实验室筹,北京100084, [3]清华大学计算机科学与技术系,北京100084
  • 相关基金:国家自然科学基金项目(No.60903107,61073071)、国家863计划项目(No.2011AA01A205)资助
中文摘要:

新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与统计特征相结合的过滤方法.与现有方法相比,准确率和召回率均有大幅提高,F-值提高到89.6%.

英文摘要:

New words discovery is of great significance in the field of natural language processing. It is more difficult to find new words in microblog than in other corpus. In this paper, an algorithm based on context entropy is proposed, and the new word candidates are filtered based on the context. To improve the precision, lexical features are introduced and an algorithm combining them with term frequency is put forward. Thus, the precision rate and the recall rate are greatly improved, and the F-measure value is up to 89 . 6%.

同期刊论文项目
期刊论文 30 会议论文 35 专利 10
期刊论文 49 会议论文 19 获奖 1 著作 1
同项目期刊论文
期刊信息
  • 《模式识别与人工智能》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会 中国自动化学会
  • 主办单位:国家智能计算机研究开发中心 中国科学院合肥智能机械研究所
  • 主编:郑南宁
  • 地址:安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
  • 邮编:230031
  • 邮箱:bjb@iim.cas.cn
  • 电话:0551-5591176
  • 国际标准刊号:ISSN:1003-6059
  • 国内统一刊号:ISSN:34-1089/TP
  • 邮发代号:26-69
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:10169