东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于半CRF模型的百科全书文本段落划分

ISSN号：0254-0037
期刊名称：《北京工业大学学报》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]北京工业大学计算机学院,北京100022, [2]北京语言大学计算机系,北京100083
相关基金：国家自然科学基金资助项目（60272055）;国家“八六三”计划资助项目（2001AA114111）

关键词：自然语言处理, 机器学习, 隐马尔科夫模型, 文本段落划分, 半条件随机域模型, natural language processing systems, machine learning, hidden markov models, topic segmentation, semi-Markov CRF

中文摘要：

介绍了基于半条件随机域（semi-Markov conditional random fields。简称semi-CRFs）模型的百科全书文本段落划分方法．为了克服单纯的HMM模型和CRF模型的段落类型重复问题。以经过整理的HMM模型状态的后验分布为基本依据，使用了基于词汇语义本体知识库的段落开始特征以及针对特定段落类型的提示性特征来进一步适应目标文本的特点．实验结果表明，该划分方法可以综合利用各种不同类型的信息，比较适合百科全书文本的段落结构，可以取得比单纯的HMM模型和CRF模型更好的性能．

英文摘要：

This paper introduced the semi-markov Conditional Random Fields （semi-CRFs） model based method for Chinese Encyclopedia text topic segmentation. The authors adopted HMM model state posterior as the basic segmentation clue which was adjusted to each text instance to overcome the topic duplication problem of fully connected state HMM model and CRF model. The authors also used several segment level word semantic features derived from domain thesaurus, and additional topic specific cue phrases to make the method more adapted to target domain. The experiment result showed that this method was suitable for Chinese Encyclopedia text topic structure and achieved better performance than HMM model and CRF model.

同期刊论文项目

线性文法及其在智能信息处理中的应用

期刊论文 15

同项目期刊论文

多语言信息交流平台的中间语言系统及支撑环境设计

基于互联网的术语定义获取系统

一种基于可信度的人名识别方法

基于HMM的百科词典知识点划分方法

基于SLM的二叉树在语音停顿预测中的应用

基于多特征的自适应新词识别

字音转换策略介绍及性能代价评估

基于CRF的百科全书文本段落划分

基于GDI＋路径技术的汉字笔顺和部件自动绘制

文本聚类在大学英语作文自动评分中应用

现代汉语通用分词系统中歧义切分的实用技术

期刊信息

《北京工业大学学报》
中国科技核心期刊

主管单位:北京市教委
主办单位:北京工业大学
主编：卢振洋
地址：北京市朝阳区平乐园100号
邮编：100124
邮箱：xuebao@bjut.edu.cn
电话：010-67392535

国际标准刊号：ISSN：0254-0037
国内统一刊号：ISSN：11-2286/T
邮发代号:2-86

获奖情况:
中国高等学校自然科学学报优秀学报二等奖,北京市优秀期刊,华北5省市优秀期刊,中国期刊方阵“双效”期刊

国内外数据库收录:
俄罗斯文摘杂志,美国化学文摘（网络版）,美国数学评论（网络版）,德国数学文摘,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:11924