位置:成果数据库 > 期刊 > 期刊详情页
基于排序树索引的轨迹压缩方法
  • ISSN号:1005-3026
  • 期刊名称:《东北大学学报:自然科学版》
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]东北大学计算机科学与工程学院,沈阳110819, [2]中国科学院计算技术研究所网络数据科学与技术重点实验室,北京100190
  • 相关基金:国家“九七三”重点基础研究发展计划基金项目(2014CB340405,2013CB329602); 国家重点研发计划基金项目(2016YFB1000902); 国家自然科学基金项目(61173008,61232010,61272177,61303244,61402442); 北京市自然科学基金项目(4154086)
中文摘要:

条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本时,面临一系列挑战.一方面,个人计算机遇到处理的瓶颈从而难以胜任;另一方面,服务器执行效率较低.而通过升级服务器的硬件配置来提高其计算能力的方法,在处理大规模的文本分析任务时,终究不能从根本上解决问题.为此,采用"分而治之"的思想,基于Apache Spark的大数据处理框架设计并实现了运行在集群环境下的分布式CRFs——SparkCRF.实验表明,SparkCRF在文本分析任务中,具有高效的计算能力和较好的扩展性,并且具有与传统的单节点CRF++相同水平的准确率.

英文摘要:

Condition random fields has been successfully applied to various applications in text analysis,such as sequence labeling,Chinese words segmentation,named entity recognition,and relation extraction in nature language processing.The traditional CRFs tools in single-node computer meet many challenges when dealing with large-scale texts.For one thing,the personal computer experiences the performance bottleneck;For another,the server fails to tackle the analysis efficiently.And upgrading hardware of the server to promote the capability of computing is not always feasible due to the cost constrains.To tackle these problems,in light of the idea of"divide and conquer",we design and implement SparkCRF,which is a kind of distributed CRFs running on cluster environment based on Apache Spark.We perform three experiments using NLPCC2015 and the 2nd International Chinese Word Segmentation Bakeoff datasets,to evaluate SparkCRF from the aspects of performance,scalability and accuracy.Results show that:1)compared with CRF++,SparkCRF runs almost4 times faster on our cluster in sequence labeling task;2)it has good scalability by adjusting the number of working cores;3)furthermore,SparkCRF has comparable accuracy to the state-of-the-art CRF tools,such as CRF++in the task of text analysis.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《东北大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国教育部
  • 主办单位:东北大学
  • 主编:汪晋宽
  • 地址:沈阳.南湖
  • 邮编:110819
  • 邮箱:
  • 电话:024-83687378
  • 国际标准刊号:ISSN:1005-3026
  • 国内统一刊号:ISSN:21-1344/T
  • 邮发代号:8-120
  • 获奖情况:
  • 全国优秀科技期刊二等奖,教育部优秀高校自然科学学报一等奖二次,获原冶金部科技期刊质量评比一等奖三次,中国期刊方阵“双百”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23296