位置:成果数据库 > 期刊 > 期刊详情页
基于最大熵的越南语新闻事件元素抽取方法
  • ISSN号:1004-9037
  • 期刊名称:《数据采集与处理》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]昆明理工大学信息工程与自动化学院,云南昆明650500, [2]上海师范大学语言研究所,上海200234, [3]云南民族大学东南亚南亚语言文化学院,云南昆明650500
  • 相关基金:国家自然科学基金(61462055,61562049,61363044).
中文摘要:

为了有效地获取可比语料,选取汉柬双语新闻文档作为可比语料库的候选语料,提出一种融合发布时间要素、实体要素和主题分布的可比语料获取方法.该方法首先计算文本的主题概率分布的JS距离,并融合各主题和要素特征,计算文本相似度;然后利用改进型的层次聚类算法对双语文本进行聚类,最后从聚簇类结果中获取可比语料.与基于词典的文本相似度计算方法进行聚类相比,该文方法有更高的Purity和F值并且获得的高质量的可比语料更多,说明了本文方法的有效性.

英文摘要:

In order to effectively obtain comparable corpus,this paper presents a method based on the inte- gration of time distribution, entity feature and topic distribution to obtain comparable corpus, selecting Chinese- Khmer bilingual news documents as the candidate corpus.The method first calculates the JS distance with the top- ic probability distribution of the text, and combines the theme and element features to calculate the text similari- ty;Then, the improved hierarchical clustering algorithm is used to cluster the bilingual texts;Finally, we can get comparable corpus from each cluster.Compared with text similarity computation method based on the dictionary, the proposed method has higher Purity and F values, and obtains more higher quality comparable corpus by this method.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《数据采集与处理》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国电子学会 仪器仪表学会 信号处理学会 中国一汽仪表学会 中国物理学会 微弱信号检测学会 南京航空航天大学
  • 主编:贲德
  • 地址:南京市御道街29号
  • 邮编:210016
  • 邮箱:sjcj@nuaa.edu.cn
  • 电话:025-84892742
  • 国际标准刊号:ISSN:1004-9037
  • 国内统一刊号:ISSN:32-1367/TN
  • 邮发代号:28-235
  • 获奖情况:
  • 中国科技论文统计源用刊,2007年被评为江苏省优秀期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:8148