东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于语义的主题爬行策略

ISSN号：1000-9825
期刊名称：《软件学报》
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]吉林大学计算机科学与技术学院,吉林长春130012, [2]吉林大学符号计算与知识工程教育部重点实验室,吉林长春130012
相关基金：基金项目：国家自然科学基金重大项目（60496320,60496321）;国家自然科学基金（60873148,60973089）;吉林省科技发展计划（20080107）;欧盟合作项目（155776-EM-1-2009-1-IT-ERAMUNDUS-ECW-L12）;符号计算与知识工程教育部重点实验室开放基金（450060326019）

关键词：本体, 语义WEB, 主题爬行, Tableau演算, ontology, semantic Web, focused crawling, Tableau calculus

中文摘要：

为使主题爬行能够充分利用资源的语义信息，提出基于语义的主题爬行策略．该策略利用领域本体刻画爬行主题，将本体语义映射到关键词表．通过定义断言集一致性扩展和域值关联推理任务，推演关键词间语义关系．在定义网页主题概念的基础上，结合本体推理方案提出主题概念的语义叠加效应模型．最后，利用主题概念的语义包含关系判定URLs抓取顺序．实验结果表明，该语义主题爬行策略在抓取收获率和爬行效率上优于现有同类方法，该方案有效、可行．

英文摘要：

An approach of semantic-based focused crawling is proposed in order to use semantic resource efficiently. In this paper, a domain-ontology is used to describe the topic of Web crawling. Lexicon of the keywords list are mapped to ontology, and semantic of words are obtained through mapping. Inference services about assertion set expanding and domain-range relation are defined. The semantic relation among keywords can be inferred by inference services. At the same time, the definition of concept about Web page is given. A semantic computational model is proposed by combining inference services mentioned above. In the end, the order of URLs corresponding to their Web page is decided according to the subsumption of topic concepts. The result show that this approach is advanced in harvest-rate and crawling efficiency and is better than some classical algorithms.

同期刊论文项目

非规范知识处理的基本理论和核心技术

期刊论文 8 会议论文 342 著作 24

非规范知识的数学理论

期刊论文 164 会议论文 64 获奖 8 著作 1

基于模型的诊断若干关键问题研究及其在配置中的应用

期刊论文 65 会议论文 6

模型不完备情形下离散事件系统诊断方法的研究

期刊论文 82 会议论文 12 专利 1

同项目期刊论文

使用SAT求解器产生所有极小冲突部件集

混合语义约简和选择估值优化SPARQL

电子细胞Analog-Cell的并发机制

一种基于图形处理器的频繁模式挖掘算法

一种基于图形处理器的压缩单纯形方法

基于延迟部分推理的快速前向规划系统

对等网信任管理模型及安全凭证回收方法的研究

基于两阶段计数的用户关联挖掘

基于混合方式的贝叶斯网弧定向算法

基于MBR的拓扑、方位、尺寸结合的定性空间推理

一种基于特征重要度的文本分类特征加权方法

使用SAT求解器产生所有极小冲突部件集

混合语义约简和选择估值优化SPARQL

Greedy online frequency allocation in cellular networks

电子细胞Analog-Cell的并发机制

空间聚类在精准农业中的应用

部分可观察强规划中约减观察变量的研究

复杂网络聚类方法

基于图的分解与合并的静态事务调度算法

顶点覆盖变体问题的确定参数可解算法研究

一类弱支配集问题的近似算法

基于Hamming范数的XML流相关性估测算法

Progress in Computational Complexity Theory

An Improved Algorithm for Finding the Closest Pair of Points

Approximating the minimum weight weak vertex cover

A 1-Local Asymptotic 13/9- Competitive Algorithm for Multicoloring Hexagonal Graphs

Arbitrage opportunities across sponsored search markets

Design of a CIL Connector to SPIN

Tree Process Calculus.

Enumerating proofs of positive formulae

Weakly distributive domains(II)

On an open problem of Amadio and Curien: The finite antichain condition

Unconditional competitive auctions with copy and budget constraints

Proof search and counter model of positive minimal predicate logic

内点带权值的最小生成树算法

二人博弈问题中单一纳什均衡的搜索算法

基于后验概率的Markov逻辑网参数学习方法研究

结合似然关系模型和用户等级的协同过滤推荐算法

基于中间件的Web智能系统集成开发平台研究

动态系统基于模型诊断的研究进展与展望.

Analog-Cell: 一种新的电子细胞图形模型

Finding a Simple Nash Equilibrium

具有动态加权特性的关联规则算法

移动Agent计算理论和形式化方法研究

Analysis and Optimization for Mobile Agent Communication

A New Spatial Algebra for Road Network Moving Objects

一种高维空间数据的子空间聚类算法

一种不确定区域间的方向关系模型

定性方向关系模型研究进展

模糊栅格区域的层次拓扑关系模型

基于区间值模糊集的模糊区域拓扑关系模型

Force-based Incremental Algorithm for Mining Community Structure in Dynamic Network

Research of Logistics Transport Costs Computing in Automobile Industry.

A Novel Method of Model-based Diagnosis by Propagating Failure Value

Analog-Cell：一种新的电子细胞图形模型

A hierarchy of behavioral equivalences in the pi-calculus with noisy channels

含序信息的粗集方法研究

基于遗传与粒子群算法的Markov逻辑网学习研究

RSILP模型若干问题的研究

一种半监督K均值多关系数据聚类算法

一种特征加权的聚类算法框架

Preprocessing of Spatial Query in Distributed GIS

Logic of Integrating Metric Space and Time

基于模型检测的实时模型诊断方法

一种结合SE-tree计算所有极小碰集的方法

n取m不经意传输协议构造研究

关于吹雪机问题的改进近似算法

改进的二分法查找

图的支配集若干问题的研究

Oblivious Computation Proxy

带测度函数的连通支配集问题

计算复杂性理论部分进展简述

P2P结构与搜索机制研究

重复囚徒困境的学习和响应模型

Generalized Region Connection Calculus

Linguistic quantifiers modeled by Sugeno integrals

A theory of computation based on quantum logic

Catalyst-assisted Probabilistic Entanglement Transformation

Observability and decentralized control of fuzzy discrete event systems

Retraction and generalized extension of computing with words

Supervisory control of fuzzy discrete event systems

State-based control of fuzzy discrete event systems

A complete classification of topologic al relations using the 9-intersection method

On topological consistency and realization

混合系统基于模型诊断建模问题研究

基于分层任务网络的一致性规划方法

基于模型诊断中产生所有极小冲突集的新方法

一种基于ATMS的求解所有极小冲突集的新方法

A Method of Combing SE-tree to Compute all Minimal Hitting Sets

可用于诊断产生的计算碰集的新方法

On countable RCC models

On minimal models of the Region Connection Calculus

An algebra for moving objects

基于用户等级的协同过滤推荐算法

基于数据立方体的属性核计算方法

基于免疫进化算法的Bayesian网结构学习算法

CORS方法与规则生成算法GRs

The Existence of Quantum Entanglement Catalysts

Qualitative Spatial Representation and Reasoning: A Hierarchical Approach

种移动Agent 通信中本体信息调整方法

基于J2EE的交互式工作流管理系统

基于粗集理论的C3I信息融合性能评估方法研究

统计关系学习研究进展

一种基于移动代理的自主拍卖模型

多Agent协商研究

一种基于实例状态的工作流系统监控方法

传名调用演算的二值传递CPS变换

自组织分治求解分布式约束优化问题

一种基于模板的子句学习算法

Some Issues in Quantum Information Theory

结合度量空间和时间的逻辑

基于粒子群优化算法的Bayesian网络结构学习

面向不完备信息系统的粗糙集方法研究

数字农业时空信息管理平台

统计关系学习模型Markov逻辑网综述

结合拓扑和方位的定性空间推理方法

空间数据挖掘技术的研究现状与发展趋势

一种基于褶集的模糊区域可视化模型

基于协同产品数据管理理念的零部件子系统的设计

时空推理中自动生成复合表的通用算法

一种基于多Agent系统的饲料配方优化算法

RCC5与主方位关系结合的定性空间推理

一种Agent通信中逻辑意外信息转换方法

反期望模式的发现及其应用

一种预测商品销量及库存的新方法

基于信息熵的度量类间桥方法

一种新的汽车乘员分类视觉检测算法

工作流系统中一个基于多权角色和规则的条件化RBAC安全访问控制模型

聚类算法研究

中文网页语义标注：由句子到RDF表示

顶点覆盖问题线性内核算法

一种基于图形处理器的频繁模式挖掘算法

一种基于图形处理器的压缩单纯形方法

基于任务和角色访问控制模型分析与研究

基于VisualFoxpro软件设计中技术技巧的研究与实践

基于GPU的混合精度平方根共轭梯度算法

基于路标隐式分解的前向搜索规划方法

广义KRA抽象模型

基于GPU的稀疏矩阵向量乘优化

扩展的G-KRA抽象模型

An artificial bee colony approach for clustering

离散事件系统的同步诊断算法

基于GPU的共享信息素矩阵多蚁群算法

不完备模型下的离散事件系统诊断方法

基于本体的分层抽象模型

基于系统中心本体的分层抽象模型

结合约束满足消除误判的等价性验证方法

一种约束粒子群优化的无线传感器网络节点定位算法

Deriving all minimal consistency-based diagnosis sets using SAT solvers

基于因果关系的模型诊断

不确定区域间方向关系的相似性度量方法

三个简单区域间的拓扑关系的推理及应用模型

基于具有自适应与自学习能力的粒子群优化算法的车间调度算法

使用SAT求解器产生所有极小冲突部件集

一种改进的基于结构抽象的分层模型诊断方法

一种双嵌套区域与简单区域间的拓扑关系模型

Formal model extraction for combinational equivalence checking

基于模型诊断的抽象分层过程

混合语义约简和选择估值优化SPARQL

一个结合多方面定性空间信息的新方法

凹形区域和带单洞区域间拓扑关系的表示

Integrity maintenance of continually changed OWL ontology

基于动态极大度的极小碰集求解方法

动态不确定环境下多目标路径规划方法

一种用于常识空间信息处理的定性空间关系模型

电子细胞模型Analog-Cell中前体mRNA剪接过程的模拟与研究

The Parallel Theorem Proving Algorithm Based on Semi-Extension Rule

利用标志传播求解基于模型的故障诊断

结合look-ahead值排序的自适应分支求解算法

路标计数启发式引导的分解规划方法

基于分割的超树分解方法

通用化和个性化在线学习新模式的研究与探讨

一种基于环切割的约束满足问题求解算法

一种基于冲突的增量诊断方法

基于等价类划分的配置求解与解释计算

改进求解约束满足问题粗粒度弧相容算法

Mapping integrity constraint ontology to relational databases

基于GPU的混合精度平方根共轭梯度算法

不完备模型下的离散事件系统诊断方法

Deriving all minimal consistency-based diagnosis sets using SAT?solvers

基于等价类划分的配置求解与解释计算研究

产品配置器的设计

图分割在Singleton弧相容算法中的应用

在离散事件系统中寻找诊断路径的方法

基于模型诊断的改进贝叶斯方法

离散时间系统的同步诊断算法

Model Counting with Boolean algebra and Extension Rule

基于具有自适应与自学习能力的粒子群优化算法的车间调度算法

使用SAT求解器产生所有极小冲突部件集

基于ATMS的冲突识别及诊断测量方法

基于模型诊断的抽象分层过程

间接使用扩展规则求解#SAT问题

混合语义约简和选择估值优化SPARQL

Dynamic Theorem Proving Algorithm for Consistency-based Diagnosis

无环配置问题研究

一个结合多方面定性空间信息的新方法

电子细胞Analog-Cell的并发机制

The Modeling Procedures for Model-Based Diagnosis of Slowly Changing Fault in Hybrid System

An Efficient Lightweight RFID Authentication Protocol for Low-cost Tags

Verilog Combinational Equivalence Checking based on SMT Constraint Solver

A new qualitative spatial reasoning model for natural language understanding

基于动态极大度的极小碰集求解方法

动态不确定环境下多目标路径规划方法

A Self-adaptive Differential Evolution Algorithm for Binary CSPs

Translation of SPARQL to SQL based on Integrity Constraint

一种用于常识空间信息处理的定性空间关系模型

利用标志传播求解基于模型的故障诊断

基于分割的超树分解方法

一种基于环切割的约束满足问题求解算法

基于等价类划分的配置求解与解释计算

改进求解约束满足问题粗粒度弧相容算法

Mapping integrity constraint ontology to relational databases

一种基于图形处理器的频繁模式挖掘算法

一种基于图形处理器的压缩单纯形方法

结合增量与启发式搜索的多目标问题处理方法

A Novel Hybrid Differential Evolution and Particle Swarm Optimization Algorithm for Unconstrained Op

Optimize Diagnosability and Sensor Placement in Discrete Event System

结合增量与启发式搜索的多目标问题处理方法

智能世界的建模与诊断

混成系统的分布式诊断方法

基于缩减信念状态的Conformant规划方法

基于AC-4的动态值启发式约束满足问题求解算法.

Eliminating Repeated Constraint Checks in MaxRPC Algorithms.

一种基于环切割的约束满足问题求解算法.

约束分解技术回顾与展望.

关于改进求解约束满足问题粗粒度弧相容算法的研究

基于模型的混杂系统中控制器故障诊断方法

一种动态定性空间关系自动规划方法

基于动态值启发式的约束满足求解算法

基于极性的非循环术语集调试

一种动态定性空间关系自动规划方法

基于动态值启发式的约束满足求解算法

期刊信息

《软件学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国科学院软件研究所中国计算机学会
主编：赵琛
地址：北京8718信箱中国科学院软件研究所
邮编：100190
邮箱：jos@iscas.ac.cn
电话：010-62562563

国际标准刊号：ISSN：1000-9825
国内统一刊号：ISSN：11-2560/TP
邮发代号:82-367

获奖情况:
2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖

国内外数据库收录:
俄罗斯文摘杂志,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:54609