东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

用于文本校对的分词与词性标注一体化算法

期刊名称：计算机技术与发展。2008，18（8）：1-3
时间：0
分类：TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]上海交通大学电子工程系,上海200240
相关基金：国家自然科学基金资助项目（60402019,60502032）;教育部新世纪优秀人才支持汁划项目（NCET-06-0393）
相关项目：开放式文档同构引擎(ODIE)研究

关键词：文本校对, 分词, 词性标注, 一体化算法, automatic proofreading, automatic segment, tagging, combined approach

中文摘要：

分词和词性标注是中文处理中的一项基本步骤，其性能的好坏很大程度上影响了中文处理的效果。传统上人们使用基于词典的机械分词法，但是，在文本校对处理中的文本错误会恶化这种方法的结果，使之后的查错和纠错就建立在一个不正确的基础上。文中试探着寻找一种适用于文本校对处理的分词和词性标注算法。提出了全切分和一体化标注的思想。试验证明，该算法除了具有较高的正确率和召回率之外，还能够很好地抑制文本错误给分词和词性标注带来的影响。

英文摘要：

Segment and part-of - speech tagging is two important procedures in Chinese processing. Use machine segment based on dictionary traditionally, but during the process of proofreading the errors in the input texts would deteriorate the result of segment and tagging, and then the errors＇ detection and correction would be made on base of the inexact output. In the paper, tried to find a method suitable for proofreading, and a combined of automatic segment and tagging approach was proposed, which was proved effective to minimize the influence of the errors with a high precise and callback rate.

同期刊论文项目

开放式文档同构引擎(ODIE)研究

期刊论文 32 会议论文 11 著作 1

互联网上基于概念分析的文本信息监控技术研究

期刊论文 40 会议论文 7

同项目期刊论文

Network Security Situation Pre

General attribute based RBAC model for web services

面向网络不良文本过滤的概念网技术研究

Improved ID-based signature sc

New Multi-pattern Matching Alg

Prefiltering and cumulant base

The Research of Time Efficienc

A General Attribute and Rule b

Fast algorithm on string cross

Protection of mobile location

基于一类分类法的不良信息过滤模

基于概念网的短消息安全过滤技术

基于概念网络的文本信息监控技术

基于DK算法的互联网热点主动发现

PGP在安全电邮系统中改进实现

面向不良文本信息监控的概念网技

基于Rhino的JavaScript动态页面

基于内容协商实时在线翻译方案的

用于文本校对的分词与词性标注一

LSB信息伪装的可靠检测算法

一种用于网络动画过滤的文字提取

高性能互联网信息监控系统的研究

基于AdaBoost的计算机生成图像检

一种基于向量空间模型的文本聚类

基于粗糙集理论色情信息过滤研究

一种针对不良主题的文本过滤

面向网络不良文本过滤的概念网技

软损坏PDF文件的修复技术

基于Endsley模型的可扩展网络安

.A General Attribute based RBA

基于图形空间结构的二维条形码数

基于属性和规则的访问控制模型

基于向量空间模型的过滤不良文本方法

基于AdaBoost的计算机生成图像检测算法

可扩展的网络安全态势评价模型优化设计

基于图像内容及底层特征的敏感图像检测方法

一种针对不良主题的文本过滤方法

基于Rhino的JavaScript动态页面解析研究与实现

基于概念网的短消息安全过滤技术分析与研究

基于改进KNN算法实现网络媒体信息智能分类

基于Cookie的身份认证网站信息采集研究与实现

基于向量空间模型的文本聚类算法（提供全文）

The Research of Time Efficiency in Adaptive Content Delivery

Efficiency of Real-Time Content Transformation in Active Network

高性能互联网信息监控系统的研究和实现

基于Rhino的JavaScript动态页面解析技术研究与实现

Multi-pattern matching algorithm

基于用户行为分析的网站广告投放策略

基于主题相关性分析的文本倾向性研究

基于内容协商实时在线翻译方案的实现及分析

基于汉字部件组合的关键词过滤技术

互联网媒体信息热点主动发现技术研究与应用

基于互联网新闻标题的文本分类算法（提供全文）

基于概念网的短消息过滤技术分析与研究

软损坏PDF文件的修复技术（提供全文）

一种面向搜索引擎Lucence的中文分析器

一种高效的倒排索引存储结构

PGP在安全电邮系统中的改进实现

基于DK算法的互联网热点主动发现研究与实现

基于AOP的角色访问控制模型设计与实现

软损坏PDF文件的修复技术

一种针对不良主题的文本过滤方法

面向搜索引擎Lucene的中文分析器

On-line linear time construction of sequential binary suffix trees

The Factors Analysis and Algorithm Implementation of Single-pattern Matching

基于Rhino的JavaScript动态页面解析研究与实现

基于JSSh实现身份认证网站信息采集

基于概念网的短消息安全过滤技术分析与研究