位置:成果数据库 > 期刊 > 期刊详情页
TWO-STAGE SENTENCE SELECTION APPROACH FOR MULTI-DOCUMENT SUMMARIZATION
  • ISSN号:0217-9822
  • 期刊名称:《电子科学学刊:英文版》
  • 时间:0
  • 分类:TP391.43[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]苏州市职业大学计算机学院,江苏苏州215006, [2]东北林业大学机电工程学院,黑龙江哈尔滨150040
  • 相关基金:基金项目:国家自然科学基金(60575041);哈尔滨市青年科学基金(2005AFQXJ020);2007年黑龙江省博士后基金(520-415029)
中文摘要:

文本语块识别在自然语言处理领域具有重要作用。以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采用“词性”特征来识别多种语块,那些对于“词”敏感的短语准确率将会很低。因此针对不同的语块采用不同的特征和策略,不同短语的识别相互借鉴,把不同语块的识别集成在一起,将会起到很好的效果。

英文摘要:

Text chunking acts as critical function in the field of natural processing field. WINNOW,SVM and perceptron are the study object in this paper. For each algorithm, model and feature are anatomized. And the advantages and disadvantages between these three algorithms and hidden Markov model are compared. The proceedings that should be pay more attention in future text chunking are pointed out. All above can be used for reference for relative research people.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《电子科学学刊:英文版》
  • 主管单位:中国科学院
  • 主办单位:中国科学院电子学研究所
  • 主编:朱敏慧
  • 地址:北京2702信箱
  • 邮编:100080
  • 邮箱:jc@mail.ie.ac.cn
  • 电话:010-62551772
  • 国际标准刊号:ISSN:0217-9822
  • 国内统一刊号:ISSN:11-2003/TN
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,英国科学文摘数据库
  • 被引量:73