东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

中文文本的信息自动抽取和相似检索机制

ISSN号：1000-1220
期刊名称：《小型微型计算机系统》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]大连理工大学计算机系,辽宁大连116024
相关基金：国家自然科学基金项目（60373095;60673039）资助

关键词：信息抽取语义模板概念扩充模糊语义, information extraction , semantic templates , conceptual expansion , fuzzy semantic

中文摘要：

目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上,利用语义关系到模板槽的映射机制,填充文本语义模板,形成结构化文本数据库.基于文本数据表述的模糊性,给出用户查询与文本语义模板的相似关系,实现了相似检索,可以更加全面地满足用户的信息需求.

英文摘要：

The mechanism of information extraction and similar retrieval for Chinese texts is presented in this paper. Users＇ information interests are represented as semantic Template. The relevant texts are obtained by search engine under conceptual expansion of keywords. Based on conceptual trigger and sentences parser,the text semantic templates are filled in term of the mapping rules between semantic relationship and slots ,so the textual database is built. Considering the fuzzy information from natural language texts, the similarity measure between user＇s queries and text semantic templates are put forward. Moreover, the digital feature of text can be expanded by fuzzy mathematics and calculated about similarity. It is shows that the mechanism of extraction and retrieval can improve the efficiency of users＇ query and meet the more and more information demands.

同期刊论文项目

WEB文本挖掘中知识模式的抽取和评价机制

期刊论文 86 会议论文 8

面向生物医学领域的文本挖掘技术研究与应用

期刊论文 77 会议论文 15

同项目期刊论文

基于SVM的组块识别及其错误驱动

SVM与规则相结合的中文地名自动

汉语自动分词中中文地名识别

基于段落匹配和分布密度的偏重摘

基于概念和统计的问答系统实现机

关键词密度分布法在偏重摘要中的

基于用户聚类的电子商务推荐系统

信息自适应过滤的效用指标优化方

基于用户向量扩展的协同推荐方法

开放式汉语自动分词的学习机制

用支持向量机进行中文地名识别的

生物医学文献分类方法的比较

基于PageRank和锚文本的网页排序

基于词典法和机器学习法相结合的

基于语义理解的文本倾向性识别机

基于问句相似度的中文FAQ问答系

基于改进编辑距离和依存结构的句

中文文本信息的自动抽取和相似检

基于概念和关联扩充的文本标题分

基于ONTOLOGY的个性化推送系统

文本分类中多分类器的综合机制

基于完全二阶隐马尔可夫模型的汉

一种与分词一体化的中文人名识别

粒子群优化算法的收敛性分析及其

中文文本中外国人名与中国人名同

基于动态规划的最小代价路径汉语

中文地名的自动识别

基于支持向量机的中国人名的自动

基于N-level VSM在web信息检索中

基于Internet的军事演习信息抽取

基于网页框架和规则的网页噪音去

基于矩阵划分和兴趣方差的协同过

中文文本体裁的自动分类机制

基于AdaBoostMH算法的汉语多义词

基于How-net的话题跟踪及倾向性

基于内容计算和链接分析的Web话

可视化文本分类树浏览机制

基于段落匹配和分布密度的偏重摘要实现机制

基于编辑距离和多种后处理的生物实体名识别

基于动态规划的最小代价路径汉语自动分词

基于锚信息的生物医学文献双语摘要句子对齐

基于矩阵划分和兴趣方差的协同过滤算法

文本挖掘中的知识模式表示、评价及检索机制

搜索引擎发展阶段研究及热点发现

基于半监督学习的蛋白质关系抽取研究

分布式检索中基于主题的语言模型集合选择策略

一种与分词一体化的中文人名识别方法

中文文本中外国人名与中国人名同步识别方法

基于AdaBoost.MH算法的汉语多义词消歧

基于混合模型的中国人名自动识别

SVM与规则相结合的中文地名自动识别

汉英机器翻译中趋向动词处理研究

基于SVM的组块识别及其错误驱动学习方法

基于ChunkCRF的观点持有者识别及其在观点摘要中的应用

基于高斯混合模型的生物医学领域双语句子对齐

基于语义结构的科技论文抄袭检测

情感词汇本体的构造

基于文本挖掘机制的区域经济关系分析

中文情感常识知识库的构建

我国知识管理领域研究热点问题及发展趋势预测

基于支持向量机的人物属性抽取

基于语义特征和本体的语篇情感计算

人际网络关系抽取和结构挖掘

基于结构和链接扩展的中文网页分类研究

基于词典法和机器学习法相结合的蛋白质名识别

基于文档语义图的中文多文档摘要生成机制

基于产品属性的条件句倾向性分析

评论挖掘中产品属性归类问题研究

文本中人物性别识别研究

日本地震的微博热点事件分析

基于用户向量扩展的协同推荐方法

Web-oriented OOV translation extracting approach through cross-language query expansion for English-

Extracting protein-protein interaction from biomedical literature using an ensemble kernel

BioPPISVMExtractor:A Protein-Protein Interaction Extractor for Biomedical Literature Using SVM and R

基于SimRank的跨领域情感倾向性分析算法研究

Uncertainty sampling-based active learning for protein-protein interaction extraction from biomedica

BioPPIExtractor: A protein-protein interaction extraction system for biomedical literature

Incorporating rich background knowledge for gene named entity classification and recognition

Fusing multiple methods for discovering implicit knowledge in biomedical literature

Query expansion based on local co-occurrence analysis

Exploiting the performance of dictionary-based bio-entity name recognition in biomedical literature

基于段落匹配和分布密度的偏重摘要实现机制

Improving the performance of bio-entity name recognition in biomedical literature via the contextual

基于支持向量机的生物医学文献蛋白质关系抽取

Exploiting the contextual cues for bio-entity name recognition in biomedical literature

Variable length relevant passage retrieval in biomedical literature

条件随机域与上下文线索结合的生物实体识别

基于情感分布的微博热点事件发现

基于编辑距离和多种后处理的生物实体名识别

基于锚信息的生物医学文献双语摘要句子对齐

文本挖掘中的知识模式表示、评价及检索机制

搜索引擎发展阶段研究及热点发现

基于半监督学习的蛋白质关系抽取研究

分布式检索中基于主题的语言模型集合选择策略

一种基于社会化标注的网页检索方法

基于LDA模型的餐馆评论排序

基于ChunkCRF的观点持有者识别及其在观点摘要中的应用

分布式策略与CRFs相结合识别汉语组块

融合字特征的平滑最大熵模型消解交集型歧义

基于高斯混合模型的生物医学领域双语句子对齐

基于权重标准化SimRank方法的查询扩展技术研究

基于LDA模型的博客垃圾评论发现

基于语义资源的生物医学文献知识发现

基于项目和标签的随机游走个性化信息推荐模型

基于神经网络的Listwise排序学习方法的研究

基于语义结构的科技论文抄袭检测

基于文献的知识发现：一个面向H1N1的研究

情感词汇本体的构造

基于文本挖掘机制的区域经济关系分析

基于用户信息平滑聚类的协同推荐方法

中文情感常识知识库的构建

语言模型在信息检索中的应用

一种基于位置优化的排序学习方法

基于实体关系的犯罪网络识别机制

基于词向量的情感新词发现方法

追踪事件微博报道：一种流的动态话题模型

基于多级锚点词的典籍英汉双语对齐研究——以《茶经》及其译文为例

自然语言处理技术在网络案情分析系统中的应用

文本挖掘技术在互联网赌博案情分析中的应用

基于互文性度量的文本翻译索引

我国知识管理领域研究热点问题及发展趋势预测

基于加权SimRank的跨领域文本情感倾向性分析

基于支持向量机的人物属性抽取

基于语义特征和本体的语篇情感计算

人际网络关系抽取和结构挖掘

基于结构和链接扩展的中文网页分类研究

大数据时代的计算政治学研究

基于文档语义图的中文多文档摘要生成机制

基于改进潜在语义分析的跨语言检索

基于语境歧义词的句子情感倾向性分析

基于网页查询结果的广告查询扩展研究

一种基于社会化标注的查询扩展方法

基于情感向量空间模型的歌曲情感标签预测模型

维基百科中争议性文章的发现方法研究

一种基于主题类别信息问句检索的新方法

期刊信息

《小型微型计算机系统》
中国科技核心期刊

主管单位:中国科学院
主办单位:中国科学院沈阳计算技术研究所
主编：林浒
地址：沈阳市浑南新区南屏东路16号
邮编：110168
邮箱：xwjxt@sict.ac.cn
电话：024-24696120 024-24696190-8870

国际标准刊号：ISSN：1000-1220
国内统一刊号：ISSN：21-1106/TP
邮发代号:8-108

获奖情况:
中国自然科学核心期刊,中国科学引文数据库来源期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:23212