位置:成果数据库 > 期刊 > 期刊详情页
信息检索中一种句子相似度的计算方法
  • ISSN号:1009-671X
  • 期刊名称:应用科技
  • 时间:2014.7
  • 页码:41-46
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西南交通大学信息科学与技术学院,四川成都610031, [2]DOCOMO Innovations公司,美国帕罗奥图94304
  • 相关基金:国家自然科学基金(61170111,61202043,61262058)
  • 相关项目:基于半监督学习的聚类集成机理及高效算法研究
中文摘要:

弱监督关系抽取利用已有关系实体对从文本集中自动获取训练数据,有效解决了训练数据不足的问题。针对弱监督训练数据存在噪声、特征不足和不平衡,导致关系抽取性能不高的问题,文中提出NF-Tri-training(Tritraining with Noise Filtering)弱监督关系抽取算法。它利用欠采样解决样本不平衡问题,基于Tri-training从未标注数据中迭代学习新的样本,提高分类器的泛化能力,采用数据编辑技术识别并移除初始训练数据和每次迭代产生的错标样本。在互动百科采集数据集上实验结果表明NF-Tri-training算法能够有效提升关系分类器的性能。

英文摘要:

Weakly supervised relation extraction utilizes entity pairs to obtain training data from texts automatically,which can effectively deal with the problem of inadequate training data.However,there are many problems in the weakly supervised training data such as noise,inadequate features,and imbalance samples,leading to low performance of relation extraction.In this paper,a weakly supervised relation extraction algorithm named NF-Tri-training(Tri-training with Noise Filtering)is proposed.NF-Tri-training employs an under-sampling approach to solve the problem of imbalance samples,learns new samples iteratively from unlabeled data and uses a data editing technique to identify and discard possible mislabeled samples both in initial training data and in new samples generating at each iteration.The experiment on dataset of Hudong encyclopedia indicates the proposed method can improve the performance of relation classifiers.

同期刊论文项目
期刊论文 66 会议论文 38 获奖 20 著作 4
同项目期刊论文
期刊信息
  • 《应用科技》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国工业和信息化部
  • 主办单位:哈尔滨工程大学
  • 主编:朱齐丹
  • 地址:哈尔滨市南通大街145号1号楼
  • 邮编:150001
  • 邮箱:heuyykj@126.com
  • 电话:0451-82518135
  • 国际标准刊号:ISSN:1009-671X
  • 国内统一刊号:ISSN:23-1191/U
  • 邮发代号:14-160
  • 获奖情况:
  • 获教育部"中国高校特色科技期刊奖",获工业和信息化部"编辑质量优秀奖
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国剑桥科学文摘,中国中国科技核心期刊
  • 被引量:5929