东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于VSM的文本相似度计算的研究

ISSN号：1001-3695
期刊名称：《计算机应用研究》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]华北电力大学计算机科学与技术学院,北京102206, [2]北京大学计算机系,北京100871
相关基金：基金项目：国家自然科学基金资助项目（90412010,70572090）;NSCF（60573166）;华北电力大学博士学位教师科研基金资助项目（H0585）

作者：郭庆琳[1,2], 李艳梅[1], 唐琦[1]

关键词：文本相似度, 特征选择, 词频—逆文档频率法, 向量空间模型, documents similarity, feature selection, TF-IDF （ term frequency-inverse document frequency ） , VSM （ vecto space model）

中文摘要：

文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。

英文摘要：

The precision and efficiency of the computing of documents similarity is the foundation and key of other documents process. This paper improved the DF and TF-IDF arithmetic. In this way, DF＇s time complexity was linearity that suited the mass documents process, and could make up the fault that exceptional useful characters might be deleted. Also, it did a mend On the TF-IDF arithmetic to improve the precision of documents similarity.

同期刊论文项目

广义项目风险元传递理论模型及其应用研究

期刊论文 30 会议论文 21 著作 1

网络计算环境综合试验平台

期刊论文 159 会议论文 137 获奖 7 著作 4

Web结构和社会信息相关性模型及其计算实验方法研究

期刊论文 18 会议论文 6

同项目期刊论文

An Efficient Data Management S

Service Dependency Model for D

Data Management Services and T

Dual-Level Traffic Smoothing T

Network-Based Anomaly Detectio

DRIC: Dependable Grid Computin

A New Approach to Hide Policy

Modeling and Simulation of Gri

DGSS: A Dependability Guided J

通用网格容错框架研究

LilyTask 任务并行环境中基于任

并行防火墙系统的容错加权散列调

Spampot：基于分布式蜜罐的垃圾邮件捕获系统

Q-GSM: QoS Oriented Grid Servi

Grid Information Service Based

RT-Grid: A QoS Oriented Servic

Client-Centric Adaptive Schedu

FreeSpeech: A Novel Wireless A

Usability Issues of Grid Syste

基于网格的一种安全组播密钥分配策略

基于软件框架CAFISE Framework的

基于非精确计算的保证计算质量的

扫描检测平台效用评估

基于网格的一种安全组播密钥分配

基于真实IPv6地址访问的P2P电子

HowU网格资源管理及调度

一种面向用户的WEB服务设计策略

分布式环境下基于属性证书的RBAC

一种基于自治域的协同入侵检测与

一种新的蠕虫检测和控制方法

基于PWF_nets的服务组合方法.

CGSP作业管理器合成服务的QoS优

一种基于Cache的网格任务反馈调

医学图像网格基于语义的信息集成

基于分布式信任管理机制的网格授

一种改进的信任协商反馈方法

一种对IRBAC2000模型的改进方法

基于属性的信任协商模型

自动信任协商及其发展趋势

一种面向窄带环境的远程屏幕同步

资源代理在异构网格互操作中的应

基于分布式散列表的网格监控系统

网格系统中的层次化资源分配与任

网格环境中证书和策略的隐私保护

网格环境下的信任服务分级

网格环境下基于模拟的协同设计与

一种面向生物基因组可变剪接问题

基于DOM树的半指导科技文献元数

基于“链接”层次分类的主题爬取

Uniform Authorization Manageme

Lightweight Messages: True Zer

一种基于隐藏证书的自动信任协商

自动信任协商抗攻击能力分析

ES：信任协商中一种对ES改进的协

Approaching Simple and Powerfu

Challenges of Grid Computing

Approach to adaptive service m

2-Layered Metadata Service Mod

基于Mix-Net的电子投票系统的安

TCP在多跳移动Ad Hoc网络中的公

基于服务网格的制造资源集成

基于多种规则的课程元数据自动抽

A Combination Scheme to Improv

自适应网格错误检测框架研究

移动Ad Hoc网络中TCP在AODV和DSD

有服务质量保证的数据密集型网格

xDFT: An Extensible Dynamic Fa

Daonity—Grid Security from Tw

基于网格资源随机性的信任调度模

面向SoC设计的网格PSE资源管理器

基于可信计算平台的密钥链式移植

CGSP、VEGA安全互操作软件[简称

在线课程的组织与管理系统

基于可信计算平台的代理证书管理

New method for intrusion featu

IPv6网络中基于域名的统一用户标

可信端到端电子邮件

过滤虚假发信人地址邮件

清华大学加快IPv6标准的进程

Incentive-based scheduling in

IPv6环境下基于真实地址的P2P电

基于域名的统一身份标识和认证方

基于真实地址的可信P2P邮件传输

基于JMS的安全组通信系统软件V1.

基于协同入侵测的大规模网络安全

基于信任的虚拟主机系统V1.0

虚假发信人地址垃圾邮件过滤系统

基于Multi-Agents的网格资源高可

基于真实IPv6地址的身份认证系统

一种基于虚拟机的自适应网格运行

Aeneas: Real-Time Performance

移动Ad Hoc网络中针对拥塞的RoQD

TCP Performance Evaluation ove

基于事件序列的蠕虫网络行为分析

基于OGSA网格服务框架的研究与应

基于插件的网格作业管理互操作策

Use Case Study of Grid Computi

基于VCA模式的网格信息集成策略

ABCGrid: Application for Bioin

RB-GACA: A RBAC based Grid Acc

SVM+BiHMM：基于统计方法的元数

Using Classification Technique

VO-Sec: An Access Control Fram

基于带权有向图的网格工作流数据

基于协同环境的混合实时任务调度

实时协同标绘系统中的即时锁共享

A Flexible Job Scheduling Syst

A Novel Authorization Mechanis

TCP Upload and Download Fairne

An Adaptive Meta-Scheduler for

CMM: Credential Migration Mana

Replica Based Distributed Meta

Access Control in CERNET Grid

JFreeSim: A Grid Simulation To

面向领域的可定制服务模型

基于虚拟机的自适应网格运行环境

基于PlanetLab的CERNET2端到端性能测量和故障诊断平台

图形化编程中模块间并行性的自动挖掘

仿真网格中服务的最优化调度机制研究

基于SSFNet的蠕虫传播细粒度建模与仿真

移动Ad Hoc网络中TCP在AODV和DSDV协议及RW和SN移动模型中的性能研究

一种基于虚拟化技术的异构网格互操作机制研究与实现

动态网络环境下的透明服务组合

基于动态异构的Web信息集成网页分析方法

基于图像的脸部模型调整及表情动画技术研究

网格中一种事件驱动的服务动态中介机制

一种改进的网格作业管理实现方法

一种面向生物基因组可变剪接问题的网络并行求解方案

网格环境中证书和策略的隐私保护机制研究

基于前向安全的组签名体制研究

移动Ad Hoc网络中针对拥塞的RoQ DDoS攻击及其防御

医学图像网格基于语义的信息集成方法

基于角色的网格授权策略的一致集成服务

SVM＋BiHMM：基于统计方法的元数据抽取混合模型

基于CAFISE Framework的高适应性面向服务软件开发

一个具有阻行机制的成批到达排队系统GI^X/M/1/N

资源代理在异构网格互操作中的应用

基于OGSA的网格服务容错框架的研究和应用

实时协同标绘系统中的即时锁共享机制研究

基于协同环境的混合实时任务调度模型

交互网格中的会话管理机制研究

基于插件的网格作业管理互操作策略

分布式环境下基于属性证书的RBAC模型

Client-Centric Adaptive Scheduling of Service-Oriented Applications

Usability Issues of Grid System Software

An Optimistic Checkpoint Mechanism Based on Job Characteristics and Resource Availability for Dynamic Grids

A Cloud-Based BPM Architecture with User-End Distribution of Non-Compute-Intensive Activities and Sensitive Data

一种基于消息的网格与Web服务调试机制

一种适应性web服务匹配方法

CGSP2.0中数据管理服务设计与实现

Web仓储中视图变化频率的自适应估测

On the Peninsula Phenomenon in Web Graph and Its ?Implications on Web Search

网页变化和增量技术及研究进展

Name disambiguation using many-to-one features

Comprehensive review on blog mining under a cross-disciplinary framework,

基于历史网页的事件报道信息系统设计与分析

Efficient entity relation discovery on Web

Towards a Global Schema for Web Entities

Knowledge Discovery by Network Visualization

一种基于Web的大规模人物社会关系提取方法.

SVM＋BiHMM：基于统计方法的元数据抽取混合模型

对文本分类评测方法稳定性的研究

一种基于Web的大规模人物社会关系提取方法

利用支持向量回归确定相关Web查询

中文Web查询演化的主要趋势

一种提取面向搜索的网上文件资源描述词语的方法

网页变化与增量搜集技术

基于粗糙集和决策树的自适应神经网络短期负荷预测方法

The Risk Element Transmission Theory Research of Multi-objective Risk-time-cost Trade-off

A new grey forecasting model based on BP neural network and Markov chain

网络计划项目风险元传递解析模型研究

The Analytic Model and Its Application of Generalized Project Risk Element Transmission

Model of Generic Project Risk Element Transmission Theory Based on Data Mining

A novel recurrent neural network forecasting model for power intelligence center

项目经济评价中NPV和IRR的风险传递关系研究

基于模糊粗糙集数据挖掘的汽轮机组故障诊断研究

基于文本聚类的多文档自动文摘研究

基于粗糙集数据挖掘的汽轮机故障预报及诊断研究

基于信息交互分析的建设工程变更预测

考虑报价经验的发电商竞价策略模型

建设项目成本加酬金合同的激励效用研究

智能工程与智能体在DSM补偿机制建模中的应用

工程项目进度计划编制的关键链法研究

基于神经网络与遗传算法的汽轮机数据挖掘研究

基于规则和本体的汽轮机故障分析

粗糙集数据挖掘及其在汽轮机故障诊断中的应用

基于神经网络与遗传算法的汽轮机组数据挖掘方法

基于Web Service的电力营销管理信息系统架构研究

基于免疫遗传算法改进DFNN模型及其应用

构建多Agent模型研究差别电价对行业的影响

发电集团公司电煤供应链能力成熟度模型及综合评价

基于遗传算法和蒙特卡洛模拟的并行工程设计工序优化

A hybrid particle swarm optimization approach with neural network and set pair analysis for transmission network planning

A novel recurrent neural network forecasting model for power intelligence center

Support vector machine forecasting method improved by chaotic particle swarm optimization and its application

工业用电客户信用综合评价指标体系的构建方法

期刊信息

《计算机应用研究》
北大核心期刊（2011版）

主管单位:四川省科学技术厅
主办单位:四川省计算机研究院
主编：刘营
地址：成都市成科西路3号
邮编：610041
邮箱：arocmag@163.com
电话：028-85210177 85249567

国际标准刊号：ISSN：1001-3695
国内统一刊号：ISSN：51-1196/TP
邮发代号:62-68

获奖情况:
第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:60049