东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

SVM＋BiHMM：基于统计方法的元数据抽取混合模型

ISSN号：1000-9825
期刊名称：《软件学报》
时间：0
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]北京大学信息科学技术学院,北京100871
相关基金：Supported by the National Natural Science Foundation of China under Grant Nos.90412010, 60573166（国家自然科学基金）;the Specialized Research Fund for the Doctoral Program of Higher Education of China under Grant No.2007108（高等学校博士学科点专项科研基金）;the HP University Collaborative Foundation of China under Grant No.HLCFY08-001（惠普大学合作基金）

关键词：元数据抽取, 基于规则的信息抽取, 支持向量机, 隐马尔科夫模型, 二元, HMM模型, metadata extraction, rule based information extraction, SVM （support vector machine）, HMM （hidden Markov model）, BiHMM （bigram hidden Markov model）

中文摘要：

提出了一种SVM＋BiHMM的混合元数据自动抽取方法．该方法基于SVM（support vector machine）和二元HMM（bigram HMM（hidden Markov model），简称BiHMM）理论．二元HMM模型BiHMM在保持模型结构不变的前提下，通过区分首发概率和状态内部发射概率，修改了HMM发射概率计算模型．在SVM＋BiHMM复合模型中，首先根据规则把论文粗分为论文头、正文以及引文部分，然后建立SVM模型把文本块划分为元数据子类，接着采用Sigmoid双弯曲函数把SVM分类结果用于拟合调整BiHMM模型的单词发射概率，最后用复合模型进行元数据抽取．SVM方法有效考虑了块间联系，BiHMM模型充分考虑了单词在状态内部的位置信息。二者的元数据抽取结果得到了很好的互补和修正，实验评测结果表明，SVM＋BiHMM算法的抽取效果优于其他方法．

英文摘要：

This paper proposes SVM＋BiHMM, a hybrid statistic model of metadata extraction based on SVM （support vector machine） and BiHMM （bigram HMM （hidden Markov model））. The BiHMM model modifies the HMM model with both Bigram sequential relation and position information of words, by means of distinguishing the beginning emitting probability from the inner emitting probability. First, the rule based extractor segments documents into line-blocks. Second, the SVM classifier tags the blocks into metadata elements. Finally, the SVM＋BiHMM model is built based on the BiHMM model, with the emitting probability adjusted by the Sigmoid function of SVM score, and the transition probability trained by Bigram HMM. The SVM classifier benefits from the structure patterns of document line data while the Bigram HMM considers both words＇ Bigram sequential relation and position information, so the complementary SVM＋BiHMM outperforms HMM, BiHMM, and SVM methods in the experiments on the same task.

同期刊论文项目

网络计算环境综合试验平台

期刊论文 159 会议论文 137 获奖 7 著作 4

Web结构和社会信息相关性模型及其计算实验方法研究

期刊论文 18 会议论文 6

同项目期刊论文

An Efficient Data Management S

Service Dependency Model for D

Data Management Services and T

Dual-Level Traffic Smoothing T

Network-Based Anomaly Detectio

DRIC: Dependable Grid Computin

A New Approach to Hide Policy

Modeling and Simulation of Gri

DGSS: A Dependability Guided J

通用网格容错框架研究

LilyTask 任务并行环境中基于任

并行防火墙系统的容错加权散列调

Spampot：基于分布式蜜罐的垃圾邮件捕获系统

Q-GSM: QoS Oriented Grid Servi

Grid Information Service Based

RT-Grid: A QoS Oriented Servic

Client-Centric Adaptive Schedu

FreeSpeech: A Novel Wireless A

Usability Issues of Grid Syste

基于网格的一种安全组播密钥分配策略

基于软件框架CAFISE Framework的

基于非精确计算的保证计算质量的

扫描检测平台效用评估

基于网格的一种安全组播密钥分配

基于真实IPv6地址访问的P2P电子

HowU网格资源管理及调度

一种面向用户的WEB服务设计策略

分布式环境下基于属性证书的RBAC

一种基于自治域的协同入侵检测与

一种新的蠕虫检测和控制方法

基于PWF_nets的服务组合方法.

CGSP作业管理器合成服务的QoS优

一种基于Cache的网格任务反馈调

医学图像网格基于语义的信息集成

基于分布式信任管理机制的网格授

一种改进的信任协商反馈方法

一种对IRBAC2000模型的改进方法

基于属性的信任协商模型

自动信任协商及其发展趋势

一种面向窄带环境的远程屏幕同步

资源代理在异构网格互操作中的应

基于分布式散列表的网格监控系统

网格系统中的层次化资源分配与任

网格环境中证书和策略的隐私保护

网格环境下的信任服务分级

网格环境下基于模拟的协同设计与

一种面向生物基因组可变剪接问题

基于DOM树的半指导科技文献元数

基于“链接”层次分类的主题爬取

Uniform Authorization Manageme

Lightweight Messages: True Zer

一种基于隐藏证书的自动信任协商

自动信任协商抗攻击能力分析

ES：信任协商中一种对ES改进的协

Approaching Simple and Powerfu

Challenges of Grid Computing

Approach to adaptive service m

2-Layered Metadata Service Mod

基于Mix-Net的电子投票系统的安

TCP在多跳移动Ad Hoc网络中的公

基于服务网格的制造资源集成

基于多种规则的课程元数据自动抽

A Combination Scheme to Improv

自适应网格错误检测框架研究

移动Ad Hoc网络中TCP在AODV和DSD

有服务质量保证的数据密集型网格

xDFT: An Extensible Dynamic Fa

Daonity—Grid Security from Tw

基于网格资源随机性的信任调度模

面向SoC设计的网格PSE资源管理器

基于可信计算平台的密钥链式移植

CGSP、VEGA安全互操作软件[简称

在线课程的组织与管理系统

基于可信计算平台的代理证书管理

New method for intrusion featu

IPv6网络中基于域名的统一用户标

可信端到端电子邮件

过滤虚假发信人地址邮件

清华大学加快IPv6标准的进程

Incentive-based scheduling in

IPv6环境下基于真实地址的P2P电

基于域名的统一身份标识和认证方

基于真实地址的可信P2P邮件传输

基于JMS的安全组通信系统软件V1.

基于协同入侵测的大规模网络安全

基于信任的虚拟主机系统V1.0

虚假发信人地址垃圾邮件过滤系统

基于Multi-Agents的网格资源高可

基于真实IPv6地址的身份认证系统

一种基于虚拟机的自适应网格运行

Aeneas: Real-Time Performance

移动Ad Hoc网络中针对拥塞的RoQD

TCP Performance Evaluation ove

基于事件序列的蠕虫网络行为分析

基于OGSA网格服务框架的研究与应

基于插件的网格作业管理互操作策

Use Case Study of Grid Computi

基于VCA模式的网格信息集成策略

ABCGrid: Application for Bioin

RB-GACA: A RBAC based Grid Acc

SVM+BiHMM：基于统计方法的元数

Using Classification Technique

VO-Sec: An Access Control Fram

基于带权有向图的网格工作流数据

基于协同环境的混合实时任务调度

实时协同标绘系统中的即时锁共享

A Flexible Job Scheduling Syst

A Novel Authorization Mechanis

TCP Upload and Download Fairne

An Adaptive Meta-Scheduler for

CMM: Credential Migration Mana

Replica Based Distributed Meta

Access Control in CERNET Grid

JFreeSim: A Grid Simulation To

面向领域的可定制服务模型

基于虚拟机的自适应网格运行环境

基于PlanetLab的CERNET2端到端性能测量和故障诊断平台

图形化编程中模块间并行性的自动挖掘

仿真网格中服务的最优化调度机制研究

基于SSFNet的蠕虫传播细粒度建模与仿真

移动Ad Hoc网络中TCP在AODV和DSDV协议及RW和SN移动模型中的性能研究

一种基于虚拟化技术的异构网格互操作机制研究与实现

动态网络环境下的透明服务组合

基于动态异构的Web信息集成网页分析方法

基于VSM的文本相似度计算的研究

基于图像的脸部模型调整及表情动画技术研究

网格中一种事件驱动的服务动态中介机制

一种改进的网格作业管理实现方法

一种面向生物基因组可变剪接问题的网络并行求解方案

网格环境中证书和策略的隐私保护机制研究

基于前向安全的组签名体制研究

移动Ad Hoc网络中针对拥塞的RoQ DDoS攻击及其防御

医学图像网格基于语义的信息集成方法

基于角色的网格授权策略的一致集成服务

基于CAFISE Framework的高适应性面向服务软件开发

一个具有阻行机制的成批到达排队系统GI^X/M/1/N

资源代理在异构网格互操作中的应用

基于OGSA的网格服务容错框架的研究和应用

Web仓储中视图变化频率的自适应估测

On the Peninsula Phenomenon in Web Graph and Its ?Implications on Web Search

网页变化和增量技术及研究进展

Name disambiguation using many-to-one features

Comprehensive review on blog mining under a cross-disciplinary framework,

基于历史网页的事件报道信息系统设计与分析

Efficient entity relation discovery on Web

Towards a Global Schema for Web Entities

Knowledge Discovery by Network Visualization

一种基于Web的大规模人物社会关系提取方法.

基于VSM的文本相似度计算的研究

实时协同标绘系统中的即时锁共享机制研究

基于协同环境的混合实时任务调度模型

交互网格中的会话管理机制研究

基于插件的网格作业管理互操作策略

分布式环境下基于属性证书的RBAC模型

Client-Centric Adaptive Scheduling of Service-Oriented Applications

Usability Issues of Grid System Software

An Optimistic Checkpoint Mechanism Based on Job Characteristics and Resource Availability for Dynamic Grids

对文本分类评测方法稳定性的研究

一种基于Web的大规模人物社会关系提取方法

利用支持向量回归确定相关Web查询

中文Web查询演化的主要趋势

一种提取面向搜索的网上文件资源描述词语的方法

网页变化与增量搜集技术

A Cloud-Based BPM Architecture with User-End Distribution of Non-Compute-Intensive Activities and Sensitive Data

一种基于消息的网格与Web服务调试机制

一种适应性web服务匹配方法

CGSP2.0中数据管理服务设计与实现

期刊信息

《软件学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国科学院软件研究所中国计算机学会
主编：赵琛
地址：北京8718信箱中国科学院软件研究所
邮编：100190
邮箱：jos@iscas.ac.cn
电话：010-62562563

国际标准刊号：ISSN：1000-9825
国内统一刊号：ISSN：11-2560/TP
邮发代号:82-367

获奖情况:
2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖

国内外数据库收录:
俄罗斯文摘杂志,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:54609