东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于段落匹配和分布密度的偏重摘要实现机制

ISSN号：1003-0077
期刊名称：中文信息学报
时间：0
页码：250-254
语言：中文
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]大连理工大学外语学院、电信学院,辽宁大连116024, [2]东北大学秦皇岛分校电子信息系,河北秦皇岛066004
相关基金：国家自然科学基金资助项目（60673039）; 辽宁省教育厅2009年度高等学校科研项目计划资助项目（2009A139）; 大连理工大学2008人文社科研究基金资助项目（DUTHS2008320）
相关项目：面向生物医学领域的文本挖掘技术研究与应用

作者：赵晶|林鸿飞|杨志豪|

关键词：切分, 树剪枝, 似然比, 茶典籍, 机辅翻译, segmentation, tree pruning, likelihood ratio, The Classic of Tea, computer-aided translation

中文摘要：

以《茶经》的翻译为例,基于树剪枝理论提出了一种典籍文本快速切分方法。首先,采用似然比统计量计算两字、三字甚至多字候选单元;然后在此基础上基于树剪枝的思想构建了典籍文本快速切分的模型算法,并构建了基本流程图;最后,以《茶经》为例验证了本算法的有效性和合理性。理论分析和算例表明,该算法能有效地对典籍文本进行自动切分,并简化了计算时间的复杂度,在推广中国典籍的对外传译方面具有良好的应用前景。

英文摘要：

This study proposes a new fast segmentation method for classic Chinese texts based on the tree pruning process.Firstly,word candidates of two,three and multiple characters are selected with likelihood ratio statistics.Then an algorithm of fast segment is presented and a basic flow chart is illustrated.Finally,the Classic of Tea is used to verify its validity and effectiveness.The theoretical analysis and experimental instances show that the algorithm is effective and promising in computer-aided translation of classic Chinese texts.

同期刊论文项目

面向生物医学领域的文本挖掘技术研究与应用

期刊论文 77 会议论文 15

WEB文本挖掘中知识模式的抽取和评价机制

期刊论文 86 会议论文 8

同项目期刊论文

基于SVM的组块识别及其错误驱动

SVM与规则相结合的中文地名自动

汉语自动分词中中文地名识别

基于段落匹配和分布密度的偏重摘

基于概念和统计的问答系统实现机

关键词密度分布法在偏重摘要中的

基于用户聚类的电子商务推荐系统

信息自适应过滤的效用指标优化方

基于用户向量扩展的协同推荐方法

开放式汉语自动分词的学习机制

用支持向量机进行中文地名识别的

生物医学文献分类方法的比较

基于PageRank和锚文本的网页排序

基于词典法和机器学习法相结合的

基于语义理解的文本倾向性识别机

基于问句相似度的中文FAQ问答系

基于改进编辑距离和依存结构的句

中文文本信息的自动抽取和相似检

基于概念和关联扩充的文本标题分

基于ONTOLOGY的个性化推送系统

文本分类中多分类器的综合机制

基于完全二阶隐马尔可夫模型的汉

一种与分词一体化的中文人名识别

粒子群优化算法的收敛性分析及其

中文文本中外国人名与中国人名同

基于动态规划的最小代价路径汉语

中文地名的自动识别

基于支持向量机的中国人名的自动

基于N-level VSM在web信息检索中

基于Internet的军事演习信息抽取

基于网页框架和规则的网页噪音去

基于矩阵划分和兴趣方差的协同过

中文文本体裁的自动分类机制

基于AdaBoostMH算法的汉语多义词

基于How-net的话题跟踪及倾向性

基于内容计算和链接分析的Web话

可视化文本分类树浏览机制

基于编辑距离和多种后处理的生物实体名识别

基于动态规划的最小代价路径汉语自动分词

中文文本的信息自动抽取和相似检索机制

基于锚信息的生物医学文献双语摘要句子对齐

基于矩阵划分和兴趣方差的协同过滤算法

文本挖掘中的知识模式表示、评价及检索机制

搜索引擎发展阶段研究及热点发现

基于半监督学习的蛋白质关系抽取研究

分布式检索中基于主题的语言模型集合选择策略

一种与分词一体化的中文人名识别方法

中文文本中外国人名与中国人名同步识别方法

基于AdaBoost.MH算法的汉语多义词消歧

基于混合模型的中国人名自动识别

SVM与规则相结合的中文地名自动识别

汉英机器翻译中趋向动词处理研究

基于SVM的组块识别及其错误驱动学习方法

基于ChunkCRF的观点持有者识别及其在观点摘要中的应用

基于高斯混合模型的生物医学领域双语句子对齐

基于语义结构的科技论文抄袭检测

情感词汇本体的构造

基于文本挖掘机制的区域经济关系分析

中文情感常识知识库的构建

我国知识管理领域研究热点问题及发展趋势预测

基于支持向量机的人物属性抽取

基于语义特征和本体的语篇情感计算

人际网络关系抽取和结构挖掘

基于结构和链接扩展的中文网页分类研究

基于词典法和机器学习法相结合的蛋白质名识别

基于文档语义图的中文多文档摘要生成机制

基于产品属性的条件句倾向性分析

评论挖掘中产品属性归类问题研究

文本中人物性别识别研究

日本地震的微博热点事件分析

基于用户向量扩展的协同推荐方法

Web-oriented OOV translation extracting approach through cross-language query expansion for English-

Extracting protein-protein interaction from biomedical literature using an ensemble kernel

BioPPISVMExtractor:A Protein-Protein Interaction Extractor for Biomedical Literature Using SVM and R

基于SimRank的跨领域情感倾向性分析算法研究

Uncertainty sampling-based active learning for protein-protein interaction extraction from biomedica

BioPPIExtractor: A protein-protein interaction extraction system for biomedical literature

Incorporating rich background knowledge for gene named entity classification and recognition

Fusing multiple methods for discovering implicit knowledge in biomedical literature

Query expansion based on local co-occurrence analysis

Exploiting the performance of dictionary-based bio-entity name recognition in biomedical literature

Improving the performance of bio-entity name recognition in biomedical literature via the contextual

基于支持向量机的生物医学文献蛋白质关系抽取

Exploiting the contextual cues for bio-entity name recognition in biomedical literature

Variable length relevant passage retrieval in biomedical literature

条件随机域与上下文线索结合的生物实体识别

基于情感分布的微博热点事件发现

基于编辑距离和多种后处理的生物实体名识别

中文文本的信息自动抽取和相似检索机制

基于锚信息的生物医学文献双语摘要句子对齐

文本挖掘中的知识模式表示、评价及检索机制

搜索引擎发展阶段研究及热点发现

基于半监督学习的蛋白质关系抽取研究

分布式检索中基于主题的语言模型集合选择策略

一种基于社会化标注的网页检索方法

基于LDA模型的餐馆评论排序

基于ChunkCRF的观点持有者识别及其在观点摘要中的应用

分布式策略与CRFs相结合识别汉语组块

融合字特征的平滑最大熵模型消解交集型歧义

基于高斯混合模型的生物医学领域双语句子对齐

基于权重标准化SimRank方法的查询扩展技术研究

基于LDA模型的博客垃圾评论发现

基于语义资源的生物医学文献知识发现

基于项目和标签的随机游走个性化信息推荐模型

基于神经网络的Listwise排序学习方法的研究

基于语义结构的科技论文抄袭检测

基于文献的知识发现：一个面向H1N1的研究

情感词汇本体的构造

基于文本挖掘机制的区域经济关系分析

基于用户信息平滑聚类的协同推荐方法

中文情感常识知识库的构建

语言模型在信息检索中的应用

一种基于位置优化的排序学习方法

基于实体关系的犯罪网络识别机制

基于词向量的情感新词发现方法

追踪事件微博报道：一种流的动态话题模型

基于多级锚点词的典籍英汉双语对齐研究——以《茶经》及其译文为例

自然语言处理技术在网络案情分析系统中的应用

文本挖掘技术在互联网赌博案情分析中的应用

基于互文性度量的文本翻译索引

我国知识管理领域研究热点问题及发展趋势预测

基于加权SimRank的跨领域文本情感倾向性分析

基于支持向量机的人物属性抽取

基于语义特征和本体的语篇情感计算

人际网络关系抽取和结构挖掘

基于结构和链接扩展的中文网页分类研究

大数据时代的计算政治学研究

基于文档语义图的中文多文档摘要生成机制

基于改进潜在语义分析的跨语言检索

基于语境歧义词的句子情感倾向性分析

基于网页查询结果的广告查询扩展研究

一种基于社会化标注的查询扩展方法

基于情感向量空间模型的歌曲情感标签预测模型

维基百科中争议性文章的发现方法研究

一种基于主题类别信息问句检索的新方法

期刊信息

《中文信息学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国中文信息学会中国科学院软件研究所
主编：孙茂松
地址：北京海淀中关村南四街4号中科院软件所
邮编：100190
邮箱：jcip@iscas.ac.cn
电话：010-62562916

国际标准刊号：ISSN：1003-0077
国内统一刊号：ISSN：11-2325/N
邮发代号:

获奖情况:

国内外数据库收录:
日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:9136