东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

融合统计学和TextRank的生物医学文献关键短语抽取

ISSN号：1000-386X
期刊名称：《计算机应用与软件》
时间：0
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：上海理工大学光电信息与计算机工程学院,上海200093
相关基金：国家自然科学基金项目（61170277）; 上海市教委科研创新基金项目（12YZ094）

作者：魏赟, 孙先朋

关键词： TextRank, 关键短语抽取, TF-IDF, 逆向文档频率, TextRank Keyphrase extraction TF-IDF Inverse document frequency

中文摘要：

关键短语的抽取在文本聚类、分类、检索等方面有着重要的作用。利用经典的TF-IDF算法来提高文本关键短语抽取的质量。通过对TF-IDF算法的研究,发现TF-IDF可以综合利用单个文本信息和文本集合信息抽取文本关键词。在此基础上,提出一种综合TF-IDF、TextRank、统计学知识抽取关键短语的方法和利用候选关键短语逆向文档频率排序的方法。该方法在TextRank基础上,通过TF-IDF引入词的文本集合信息计算词之间权重得到词的得分。然后利用统计学知识从上一步选出词组成的短语筛选出候选关键短语。最后利用逆向文档频率的思想对候选关键短语排序。实验证明,该模型相比于经典TextRank模型准确率提高了2%,召回率提高了4.5%,F-measure提高了3.4%。

英文摘要：

Keyphrase extraction plays a significant role in text clustering, classification, retrieval and so on. This paper uses the classic TF-IDF algorithm to improve the quality of text keyphrase extraction. By studying the TF-IDF algorithm, it is found that the TF-IDF can extract the text keywords by using the single text information and the text collection information. On this basis, this paper proposes a keyphrase extraction method by combining TF-IDF, TextRank, statistical knowledge and inverse document frequency sorting by candidate keyphrase. Based on the TextRank, this method calculates the weight of the words by TF-IDF to get the word score. And then use the statistical knowledge from the previous step to select the phrases of the phrase selected candidate keyphrases. Finally, the candidate keyphrases are sorted by the idea of inverse document frequency. Experiments show that the accuracy of this model is 2% higher than that of classical TextRank model, and the recall rate increased by 4. 5% and F-measure increased by 3.4%.

同期刊论文项目

基于对等网络的云计算资源共享模型及其关键技术的研究

期刊论文 65 会议论文 4

同项目期刊论文

无结构P2P网络中基于内容的图像检索方法

Estimating the cardinality of a mobile peer-to-peer network

一种结构化P2P网络拓扑匹配的通用算法

一个支持多维区间查询的云对等网络索引架构

一种改进的RFID系统安全协议

无线传感器网络中多目标优化节点部署模型

基于DEA的能耗感知虚拟机资源分配算法

一种可视化云对等网络模拟器的设计

云环境下服务发现架构研究

Support vector machine approach for virtual machine migration in cloud data center

改进蚁群算法在移动自组网中的研究

一种小路由延迟的云对等网络搜索算法

一种服务区分的多媒体传感器网络MAC协议

构建自组织的云资源共享对等网络

一种基于后缀项表的并行闭频繁项集挖掘算法

OpenStack云虚拟机安全策略研究

云计算中虚拟机资源分配算法

基于复杂云资源查询的HChord索引机制

一种基于分层云对等网络的多属性云资源区间查找算法

基于递归随机抽样的Hadoop配置优化

基于数学模型的云计算SaaS定价的研究与实现

基于SkipNet支持多属性范围查询的云资源共享设计

云计算环境下支持多属性查找的混合对等网络

支持多维查找的资源共享设计

一种基于对等网络的云资源多属性区间查询算法

一种基于对等网络的云资源定位算法

一种基于HSFC的云资源定位算法

多关键字云资源搜索算法研究

Cloud-based application of encipher scheme for web of things

Research and Simulation of Task Scheduling Algorithm in Cloud Computing

基于改进蚁群算法的云计算任务调度模型

基于期权的物流服务供应链协调机制

RFID 中间件数据处理研究

基于高斯优化的精英鱼群算法研究

面向智慧道路无线网络的双路径路由准入控制协议

基于边界逼近的肺实质分割方法

无线高精度角位置跟随监控系统研究

一种参数模型的永磁同步电机故障诊断控制仿真

基于苯环结构的WSNs单向链路故障检测算法

基于引力搜索的室内自适应RSSI定位算法

一种基于苯环结构的WSNs故障检测算法

融合字符纹理特征与RGB颜色特征的车牌定位

基于免疫克隆选择机制的WSN节点调度算法

基于小波和模糊逻辑理论的交通事件检测

基于三轴陀螺仪传感器的无线位置伺服算法应用

基于多参数服务质量的多点中继选择算法

FlexRay总线静态段的负载率优化研究

基于SpaceTwist的k-匿名增量近邻查询位置隐私保护算法

一种支持多维区间查询的云对等网络索引架构

基于谱聚类和扩展朴素贝叶斯的混合推荐算法

面向智慧道路无线网络的动态链路调度准入控制模型

一种面向分布式数据流的闭频繁模式挖掘方法

基于T—S模型的主动磁轴承系统的鲁棒控制

基于adhoc网络的公平介质访问改进算法

数字经济国际发展比较及对我国城市的启示

一种改进的自适应环境定位方法

基于像素统计和纹理特征的人群密度估计

基于IABC-WNN模型的交通流量预测研究

基于连续查询的用户轨迹k-匿名隐私保护算法

智能信息处理实验课程建设

基于Hadoop平台的K-means算法优化综述

基于Hadoop的分布式平台实现

一种支持复杂查询的多维云数据管理索引机制

期刊信息

《计算机应用与软件》
北大核心期刊（2011版）

主管单位:上海科学院
主办单位:上海市计算技术研究所上海计算机软件技术开发中心
主编：朱三元
地址：上海市愚园路546号
邮编：200040
邮箱：cas@sict.stc.sh.cn
电话：021-62254715 62520070-505

国际标准刊号：ISSN：1000-386X
国内统一刊号：ISSN：31-1260/TP
邮发代号:4-379

获奖情况:
全国计算机类中文核心期刊

国内外数据库收录:
波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2011版）,中国北大核心期刊（2000版）

被引量:27463