东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

面向搜索引擎Lucene的中文分析器

ISSN号：1002-8331
期刊名称：《计算机工程与应用》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]上海交通大学信息安全工程学院,上海200240
相关基金：国家自然科学基金（the National Natural Science Foundation of China under Grant No.60502032,No.60672068）.

作者：胡长春[1], 刘功申[1]

关键词：分析器, 索引, 检索, 分词, 搜索引擎, analyzer, index , retrieval , word segmentation , search engine

中文摘要：

针对目前应用于搜索引擎Lucene的中文分析器的分词不符合汉语习惯的现状，根据正向最大匹配切分算法和采用包括基本标准中文词语的词库，实现了自己的分析器。该分析器的分词结果更符合汉语的习惯，并且在分词、建立索引等方面的性能非常接近基于机械分词的分析器，另外在检索速度方面性能提升了2～4倍，在检索召回率方面性能提升了59％。

英文摘要：

The word segmentation algorithm of most Chinese analyzers for the Lucene search engine does not meet the Chinese habit.In order to overcome such deficiency,this paper has proposed a new Chinese analyzer based on the maximal match algorithm and a standard dictionary.From the experimental results,the proposed word segmentation algorithm of our Chinese analyzer meets the Chinese habit.And its indexing performance is very close to that of the analyzers based on mechanical segmentation.In addition,the retrieval efficiency is greatly improved by 2-4 times and the rate of retrieval response is improved by 59%.

同期刊论文项目

网络舆论发展趋势分析核心技术研究

期刊论文 26 会议论文 10 专利 3 著作 1

开放式文档同构引擎(ODIE)研究

期刊论文 32 会议论文 11 著作 1

同项目期刊论文

分布式数据挖掘中基于扰乱的隐私保护方法

Toward optimizing cauchy matrix for cauchy Reed-Solomon code

Democratic Group Signatures with Threshold Traceability

Anonymity Enhancement on Robust and Efficient Password-Authenticated Key Agreement Using Smart Cards

中文文本倾向性分类技术比较研究

一种基于段落同现频率的特征向量加权方法

基于互联网新闻标题的文本分类算法

DSR协议下入侵检测的设计与仿真研究

隐蔽通道的信息传递模型

移动ad hoc网络的入侵响应模型

基于带标签有限自动机的隐蔽存储通道搜索

基于动态博弈理论的分布式拒绝服务攻击防御方法

General attribute based RBAC model for web services

Real-time protocol analysis for detecting routing attacks in wireless mesh networks

Multi-agent cooperative intrusion response in mobile adhoc networks

流密码典型分析方法及实例

SVM文本分类中一种新的特征提取方法

On-line linear time construction of sequential binary suffix trees

The Factors Analysis and Algorithm Implementation of Single-pattern Matching

基于改进KNN算法实现网络媒体信息智能分类

基于Cookie的身份认证网站信息采集研究与实现

基于向量空间模型的文本聚类算法（提供全文）

The Research of Time Efficiency in Adaptive Content Delivery

Efficiency of Real-Time Content Transformation in Active Network

高性能互联网信息监控系统的研究和实现

基于Rhino的JavaScript动态页面解析技术研究与实现

Multi-pattern matching algorithm

基于用户行为分析的网站广告投放策略

基于主题相关性分析的文本倾向性研究

基于内容协商实时在线翻译方案的实现及分析

基于汉字部件组合的关键词过滤技术

互联网媒体信息热点主动发现技术研究与应用

基于互联网新闻标题的文本分类算法（提供全文）

基于概念网的短消息过滤技术分析与研究

软损坏PDF文件的修复技术（提供全文）

一种面向搜索引擎Lucence的中文分析器

一种高效的倒排索引存储结构

PGP在安全电邮系统中的改进实现

基于DK算法的互联网热点主动发现研究与实现

用于文本校对的分词与词性标注一体化算法

基于AOP的角色访问控制模型设计与实现

软损坏PDF文件的修复技术

一种针对不良主题的文本过滤方法

On-line linear time construction of sequential binary suffix trees

The Factors Analysis and Algorithm Implementation of Single-pattern Matching

基于Rhino的JavaScript动态页面解析研究与实现

基于JSSh实现身份认证网站信息采集

基于概念网的短消息安全过滤技术分析与研究

期刊信息

《计算机工程与应用》
北大核心期刊（2014版）

主管单位:中国电子科技集团公司
主办单位:华北计算技术研究所
主编：怀进鹏
地址：北京市海淀区北四环中路211号北京619信箱26分箱
邮编：100083
邮箱：ceaj@vip.163.com
电话：

国际标准刊号：ISSN：1002-8331
国内统一刊号：ISSN：11-2127/TP
邮发代号:82-605

获奖情况:
1. 2012年首批获得中国学术文献评价中心发布的 “...,2. 2001年获得新闻出版署“中国期刊方阵双效期刊”,3. 2008年首批入选国家科技部“中国精品科技期刊...,4.2003年-2011年连续获得工业和信息化部期刊最高...

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:97887