东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于Hadoop分布式平台的Web文本关键词提取方案

ISSN号：1000-5900
期刊名称：《湘潭大学自然科学学报》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]南昌理工学院计算机信息工程系,江西南昌330044, [2]华南理工大学土木与交通学院,广东广州510641
相关基金：国家自然科学基金项目（61203164,61174184）

作者：姚卫国[1], 张东波[2]

关键词： WEB文本, 关键词提取, HADOOP平台, 自然语言处理, 分布式, Web text, keyword extraction, Hadoop platform, natural language processing, distributed

中文摘要：

针对海量Web文本的关键词提取问题,提出一种基于Hadoop分布式计算平台的关键词提取方案.首先,配置Hadoop平台,使其能够支持自然语言处理过程;然后,使用GATE工具对Web文本进行词句分割、词性标注和注释规则操作,得到候选关键词集;最后,利用单词位置和跨度重要性因子对传统TF-IDF算法进行加权,从而计算候选关键词与文档之间的相关性,最终获得该文档的关键词以标注文档属性.实验结果表明,提出的分布式关键词提取方案能够快速准确地提取Web文档的关键词.

英文摘要：

For the issues that the keyword extraction of massive Web text, a web text keyword extractionscheme based on the Hadoop distributed platform is proposed. F irst, The Hadoop platform is configured tosupport natural language processing. Then, the GATE tool is used to perform words segmentation, part ofspeech tagging and annotation rules for Web text, and get a set of candidate keywords. F inally, the TF-IDFalgorithm which weighted by the word position and span factor is used to calculate the correlation betweencandidate keywords and documents, and obtain the document keywords to indicate document properties.Experimental results show that the distributed keyword extraction system can quickly and accurately extractthe key words of Web documents.

同期刊论文项目

基于集对分析的交通信号控制评价及优化方法研究

期刊论文 13 会议论文 1 著作 1

基于群体动力学的交叉口群协调控制理论与方法研究

期刊论文 76 会议论文 6 获奖 4 著作 1

同项目期刊论文

基于纹理和小波变换的阴影检测去除算法

基于边界点分布特征的夜间道路检测算法研究

近距离相邻交叉口信号协调控制模型研究

高速公路交通管制策略仿真评价

基于RBF神经网络的高速公路交通状况判别

一种基于同态滤波的背景建模方法

基于Vissim仿真的快速公交系统实施方案评价体系研究

基于一种交通状态系数的城市路网交通状态评价研究

一种基于Adaboost.M1的车型分类算法

基于地磁传感器的车辆检测算法

Identification of oversaturated traffic conditions based on loop detection

Research on fast dynamic division method of coordinated control subarea

Coordinated control model of regional traffic signals

Active multi-layer perimeter control strategy of oversaturated traffic networks

Optimization algorithm of coordinated control scheme transition of traffic signal

协调控制子区快速动态划分方法研究

Traffic Signal Timing Optimization for Isolated Intersections Based on Differential Evolution Bacter

Division of coordinated control subareas based on group dynamics theory

Two-Way Bandwidth Maximization Model with Proration Impact Factor for Unbalanced Bandwidth Demands

基于双阈值SSDA模板匹配的遥感图像道路边缘检测研究

进口混合放行下的城市干道信号双向绿波协调方法研究

基于精细化考虑的深圳市交通系统盲道设计和建设的思考

基于属性维划分和MapReduce的道路运输信息系统数据聚类

深圳市公共交通无障碍体系规划探索与实践

基于K-means算法的行人检测方法研究

基于属性维划分和MapＲeduce 的道路运输信息系统数据聚类

交通区域协调控制模型

基于改进宏观交通模型的交通协调控制

基于模糊控制的公交信号优先控制方法研究

基于群体动力学的协调控制子区划分

过饱和交通网络的多层边界主动控制方法

过饱和状态下的单交叉口最小延误信号周期模型

基于单目视觉的行车环境安全预警系统设计

干道交通瓶颈交叉口的红波双向协调控制模型

公路收费站车辆跟踪及抓拍算法研究与系统实现

１种基于平行直线对模型的车道检测方法

信号交叉口多目标动态决策模型及其优化方法

周期不同的多交叉口协调控制方法

相邻交叉口相聚度分析及应用

交通信号协调控制方案过渡优化算法

基于OBD 接口的危险驾驶报警与记录系统设计

A Perimeter Control Strategy for Oversaturated Network Preventing Queue Spillback

绿波协调控制方案的速度区间适应性分析与评价

TOD理念指导下的城市轨道交通接驳体系规划探索

Heuristic ant algorithm for road network traffic coordination control

面向高速公路的车辆换道安全预警模型

BRT车站濒临交叉口的信号配时优化算法研究及应用

基于帧差与统计法的运动目标背景图像提取算法

基于粗糙集与关联规则的道路运输管理信息数据挖掘方法

用于交通流预测的带距离权重模式识别算法

大数据环境下的动态最短路径算法

车路协同下基于速度引导的双周期干道绿波协调控制方法

基于改进Sobel算子的遥感图像道路边缘检测方法

基于Riemann-Liouville改进的1~2阶分数阶边缘提取新模型

考虑交叉口不同饱和度的路网动态分区方法

基于群决策理论的协调控制子区划分方法

非对称通行条件下的双向绿波协调控制数解算法

基于BRT站台乘车诱导的公交车辆载客均衡模型

基于集对分析的干道绿波协调控制方案评价方法

行人斜穿信号交叉口绿波设计及延误模型

交通信号协调控制方案过渡优化算法

绿波协调控制方案的速度区间适应性分析与评价

车路协同下基于速度引导的双周期干道绿波协调控制方法

考虑交叉口不同饱和度的路网动态分区方法

期刊信息

《湘潭大学自然科学学报》
北大核心期刊（2011版）

主管单位:湖南省教育厅
主办单位:湘潭大学
主编：黄云清
地址：湖南湘潭市
邮编：411105
邮箱：jxtus@xtu.edu.cn
电话：0731-58292143

国际标准刊号：ISSN：1000-5900
国内统一刊号：ISSN：43-1066/N
邮发代号:42-33

获奖情况:
全国优秀科技期刊,湖南省一级期刊

国内外数据库收录:
俄罗斯文摘杂志,美国化学文摘（网络版）,美国数学评论（网络版）,德国数学文摘,荷兰文摘与引文数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）

被引量:4425