东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

融入事件知识的主题表示方法

ISSN号：0254-4164
期刊名称：《计算机学报》
时间：0
分类：TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]武汉大学计算机学院,武汉430072, [2]武汉大学软件工程国家重点实验室,武汉430072, [3]乐山师范学院计算机科学学院,四川乐山614000
相关基金：国家自然科学基金（61133012,61373108,61373056）; 国家社科重大招标计划项目（11＆ZD189）资助

关键词：事件, 主题模型, 主题表示, 事件知识, 自然语言处理, 社交网络, 社会媒体, event, topic model, topic representation, event knowledge, natural language processing, social networks, social media

中文摘要：

主题模型已被广泛用于发现文档潜在主题.已有方法多采用词或短语来表示主题,然而这些方法生成的主题缺乏深层次的语义信息,可解释性比较差.文中提出使用结构化的事件来表示主题.一方面,事件包含比词或短语更丰富的语义;另一方面,一组相关的事件能更合理地解释并区分不同的主题.为解决事件作为基本单元所带来的稀疏性问题,该文在Biterm Topic Model（BTM）的基础上提出两种主题模型,采用两种不同的方式将事件的语义知识融入到主题生成过程中.其中,第1种模型利用Generalized Pólya Urn（GPU）模型天然的聚类效果加大语义相近的事件分配到同一主题的概率,而第2种模型则通过为每个biterm引入指示变量,合理地利用语义知识有效地解决同一个biterm中两个事件的主题分配问题.该文不仅从主题凝聚度和KL散度两个指标直接对主题模型进行评估,还通过将主题表示结果引入到文本分类任务中对模型进行了外部评估.实验结果表明文中提出的模型从共现和语义两个层面有效地解决了事件稀疏性问题.与基于词或短语的主题表示相比,事件结构所包含的语义信息提高了主题生成质量,使主题表示具有更强的可读性和主题判别性.

英文摘要：

Topic model has been widely used to discover the latent topic of text.Most previous methods exploited words or phrases for topic representation.However,this form of topic representation has a poor interpretability,due to the lack of deep semantic information.This paper proposes to exploit structured events for topic representation.On one hand,events have more abundant semantic information than words or phrases;on the other hand,a set of events are able to interpret and distinguish different topics intuitively.However,the structured events,as basic units of document,add more difficulties to the topic sampling because of the sparseness.To address the problem,we propose two topic models based on Biterm Topic Model.Event semantic knowledge is incorporated into these models using two different ways.The first model exploits the natural clustering performance of Generalized Pólya Urn model to increase the probability of assigning same topic to similar events.Differently,the second model introduces an indicator variable for each biterm,and exploits event semantic information to solve the topic assignment of the events in one biterm more reasonably.We not only directly evaluate the topic models based ontwo metrics,namely topic coherence and KL-divergence,but also conduct the external evaluation by carrying out text classification task based on the results of topic representation.The experimental results demonstrate our topic models effectively diminish the sparseness from two perspectives：event co-occurrence and semantic relatedness.Compared to the topic representation based on words,the semantic information of event effectively promotes the topic quality and improves the interpretability and topic discrimination of topic representation.

同期刊论文项目

汉语语篇连贯的事件链模型研究

期刊论文 15

篇章级中文语义分析理论与方法

期刊论文 50

基于概率主题模型的词义计算及应用研究

期刊论文 1

　基于本体演化和事件结构的语义网模型研究

期刊论文 71

同项目期刊论文

基于PU学习算法的虚假评论识别研究

基于迁移的微博分词和文本规范化联合模型

基于卷积网络的句子语义相似性模型

一种分布式防火墙规则有效性检测算法

面向汽车领域的软文识别研究

中文篇章级句间关系自动分析

基于CRF和半监督学习的中文时间信息抽取

基于分析和生成的复述与SMT语料扩展

基于复杂网络重叠社团发现的微博话题检测

文本蕴涵研究现状和发展趋势

基于多标签CRF的疾病名称抽取

基于位置敏感Embedding的中文命名实体识别

基于事件卷积特征的新闻文本分类

基于无监督学习算法的推特文本规范化

基于神经网络模型的产品属性情感分析

中文微博情感倾向性分析特征工程

省略识别及恢复联合模型研究

基于OC-SVM的新情感词识别

中文复杂名词短语依存句法分析

基于SVM和CRF多特征组合的微博情感分析

一种面向社区型问句检索的主题翻译模型

文本可视化研究综述

社会媒体中用户的隐式消费意图识别

因果关系及其在社会媒体上的应用研究综述

一个基于超图的词义归纳模型

基于核特征的商品图像句子标注

基于依存句法分析的社会媒体文本挖掘方法——以饮食习惯特色分析为例

使用过训练提升词性标注依存句法联合模型的速度

A Multiple Feature Approach for Disorder Normalization in Clinical Notes

面向网络文本的信息可信度评估方法研究

社会焦点透视镜系统——大数据视角下的舆情观测平台

基于网络结构的多种用户影响力分析算法对比研究

面向社会媒体的消费意图识别：任务、挑战与机遇

跨社区的用户链指技术综述

Generating Chinese named entity data from parallel corpora

基于自学习的汉语开放域命名实体边界识别

实体链指技术研究进展

基于边权重的主题核心术语抽取

中文篇章级句间语义关系识别

中文篇章级句间语义关系体系及标注

基于Folksonomy的本体构建综述

基于词语关联度的查询缩略

BUEES： a bottom-up event extraction system

借重于人工知识库的词和义项的向量表示：以HowNet为例

基于核特征和tag-rank的商品图像句子标注

统计与词典相结合的领域自适应中文分词

基于主动学习的中文依存句法分析

基于关键词精化和句法树的商品图像句子标注

面向产品评论分析的短文本情感主题模型

基于协同训练的文本蕴含识别

基于知识话题模型的文本蕴涵识别

基于PU学习算法的虚假评论识别研究

基于迁移的微博分词和文本规范化联合模型

基于卷积网络的句子语义相似性模型

基于复杂网络重叠社团发现的微博话题检测

基于位置敏感Embedding的中文命名实体识别

一个基于超图的词义归纳模型

基于事件指导的多文档生成式摘要方法

基于结构化事件的主题表示

基于矩阵分解和子模最大化的微博新闻摘要方法

融入显著性事件信息的标题生成方法

A Multiple Feature Approach for Disorder Normalization in Clinical Notes

面向产品评论分析的短文本情感主题模型

现代汉语非名词性空语类

词位重构与平行语言资源的再生性建设

Automatic Ontology Construction Based on Clustering Nucleus

基于信息单元融合的新闻原子事件抽取

基于知识话题模型的文本蕴涵识别

基于PU学习算法的虚假评论识别研究

题元角色理解与英语动词一词多义的认知与教学

Semantic Relation Annotation for Biomedical Text Mining Based on Recursive Directed Graph

微博关注网构建与统计分析研究

问答系统中基于维基百科的问题扩展技术研究

汉语语义场网络中的无标度分布现象

基于特征结构的汉语连动句语义标注研究

基于卷积网络的句子语义相似性模型

基于多标签CRF的疾病名称抽取

基于无监督学习算法的推特文本规范化

一个基于超图的词义归纳模型

移动互联环境下高等教育中的国情与省情教育面临的挑战和对策

一种联合抽取疾病、药物以及副作用事件的方法

一种基于GPU的并行三维各向异性扩散的超声图像斑点噪声滤波算法

基于列数据库和图缓存的海量RDF管理

基于句法分析的临床指南事件及事件关系提取

一种高密度关联数据压缩方案

基于事件指导的多文档生成式摘要方法

基于结构化事件的主题表示

基于矩阵分解和子模最大化的微博新闻摘要方法

融入显著性事件信息的标题生成方法

A Multiple Feature Approach for Disorder Normalization in Clinical Notes

基于知识图谱的精细化工辅助研发平台

基于事件链的汉语语篇连贯资源建设

文学典籍英译中的文化负载词问题思考——以《西游记》中的“相应”为例

谈谈显性非宾格动词句

隐性形式、扣合与句位变体——以“是……的”句的句位变体研究为例

基于语言现象的文本蕴涵识别

基于关键词精化和句法树的商品图像句子标注

副词“一定”的情态意义和相关功能研究

规则与统计相结合的主谓谓语句的日汉机器翻译研究

基于物性结构的事件演化语义模型

论语义阻碍在英语词位构成三个层面的表现

中文文本中实体数值型关系无监督抽取方法

基于概念特征的汉语交互类言说动词语义分析及同义词群的建构

中国古代岁时民俗文献研究

关于“是”字句主宾语的分析

现代汉语“数词＋名词”的事件语义及名词研究

中文美食开放链接资源库（LOD）建设实践

中文医学指南的事件处理及其语义数据自动生成

规约会话含义的意象图式理据

英汉多项状语并置语序差异的认知阐释——以工具、地点、频度和时间状语为例

表移动义“切”类动词的句法语义问题

基于事件结构的英语意动构式研究

SPES：基于谓词选择率估计的SPARQL查询优化方案

基于话题相关的文档集的无向基本要素网络的连通性探讨

基于图数据库的RDF数据分布式存储

一种基于本体的工业消防辅助调度系统实现

基于K值改进的K-means算法在入侵检测中的应用

“差一点”和“差不多”的语义差异及其认知解释

基于列式数据库的RDF数据分布式存储

重复图数据收缩清理策略

语言的隐显形式与“是……的”句的再分类

基于内容标签的消防知识推荐系统

基于论元结构和论元角色的英语-（a）tion型后缀动词名物词具体义研究

现代汉语评价类言说动词语义特征描写与义合网络的建构

Semantic Cache Replacement Strategy for XML Algebra-Based Query Optimization

符号学视角下京剧与歌舞伎脸谱对比研究——以关羽与源义经形象为例

面向产品评论分析的短文本情感主题模型

案例教学法指导下的商务日语教学改革方案——以商务礼仪教学为例

任务抢占策略在XML多核查询中的应用

义项归纳新探

基于任务抢占与数据分区的XML多核查询优化

基于中文自然语言的合理用药查询

语言学模因论指导下的日语多义词教学研究

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433