东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于无监督学习算法的推特文本规范化

ISSN号：1001-9081
期刊名称：《计算机应用》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术] TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：武汉大学计算机学院,武汉430072
相关基金：国家自然科学基金重点项目（61133012）;国家自然科学基金资助项目（61173062）; 国家哲学社会科学重大计划项目（11＆ZD189）

关键词：规范化, 无监督学习, 二部图, 随机游走, 拼写检查, normalization, unsupervised learning, bipartite graph, random walk, spelling checker

中文摘要：

推特文本中包含着大量的非标准词,这些非标准词是由人们有意或无意而创造的。对很多自然语言处理的任务而言,预先对推特文本进行规范化处理是很有必要的。针对已有的规范化系统性能较差的问题,提出一种创新的无监督文本规范化系统。首先,使用构造的标准词典来判断当前的推特是否需要标准化。然后,对推特中的非标准词会根据其特征来考虑进行一对一还是一对多规范化;对于需要一对多的非标准词,通过前向和后向搜索算法,计算出所有可能的多词组合。其次,对于多词组合中的非规范化词,基于二部图随机游走和误拼检查,来产生合适的候选。最后,使用基于上下文的语言模型来得到最合适的标准词。所提算法在数据集上获得86.4%的F值,超过当前最好的基于图的随机游走算法10个百分点。

英文摘要：

Twitter messages contain a large number of nonstandard tokens, created unintentionally or intentionally by people. It is crucial to normalize the nonstandard tokens for various natural language processing applications. In terms of the existing normalization systems which perform poorly, a novel unsupervised normalization system was proposed. First, a standard dictionary was used to determine whether a tweet needs to be normalized or not. Second, a nonstandard token was considered to take 1-to-1 or 1-to-N recovering based on its characteristics. For 1-to-N recovering, the nonstandard token would be divided into multiple possible words using forward and backward search. Third, some normalization candidates were generated for nonstandard tokens among multiple possible words by integrating random walk and spelling checker. Finally, the best normalized twitter could be obtained by taking all the candidates into consideration of n-gram language model. The experimental results on the manual dataset show that the proposed approach obtains F-score of 86. 4%, which is 10 percentage points higher than that of current best graph-based random walk algorithm.

同期刊论文项目

汉语文本推理的资源建设和统计分析研究

期刊论文 36 会议论文 33

篇章级中文语义分析理论与方法

期刊论文 50

　基于本体演化和事件结构的语义网模型研究

期刊论文 71

同项目期刊论文

基于PU学习算法的虚假评论识别研究

基于迁移的微博分词和文本规范化联合模型

基于卷积网络的句子语义相似性模型

一种分布式防火墙规则有效性检测算法

融入事件知识的主题表示方法

面向汽车领域的软文识别研究

中文篇章级句间关系自动分析

基于CRF和半监督学习的中文时间信息抽取

基于分析和生成的复述与SMT语料扩展

基于复杂网络重叠社团发现的微博话题检测

文本蕴涵研究现状和发展趋势

基于多标签CRF的疾病名称抽取

基于位置敏感Embedding的中文命名实体识别

基于事件卷积特征的新闻文本分类

基于神经网络模型的产品属性情感分析

中文微博情感倾向性分析特征工程

省略识别及恢复联合模型研究

基于OC-SVM的新情感词识别

中文复杂名词短语依存句法分析

基于SVM和CRF多特征组合的微博情感分析

一种面向社区型问句检索的主题翻译模型

文本可视化研究综述

社会媒体中用户的隐式消费意图识别

因果关系及其在社会媒体上的应用研究综述

一个基于超图的词义归纳模型

基于核特征的商品图像句子标注

基于依存句法分析的社会媒体文本挖掘方法——以饮食习惯特色分析为例

使用过训练提升词性标注依存句法联合模型的速度

A Multiple Feature Approach for Disorder Normalization in Clinical Notes

面向网络文本的信息可信度评估方法研究

社会焦点透视镜系统——大数据视角下的舆情观测平台

基于网络结构的多种用户影响力分析算法对比研究

面向社会媒体的消费意图识别：任务、挑战与机遇

跨社区的用户链指技术综述

Generating Chinese named entity data from parallel corpora

基于自学习的汉语开放域命名实体边界识别

实体链指技术研究进展

基于边权重的主题核心术语抽取

中文篇章级句间语义关系识别

中文篇章级句间语义关系体系及标注

基于Folksonomy的本体构建综述

基于词语关联度的查询缩略

BUEES： a bottom-up event extraction system

借重于人工知识库的词和义项的向量表示：以HowNet为例

基于核特征和tag-rank的商品图像句子标注

统计与词典相结合的领域自适应中文分词

基于主动学习的中文依存句法分析

基于关键词精化和句法树的商品图像句子标注

面向产品评论分析的短文本情感主题模型

Multi-Document Extractive Summarization Using Event Semantic Relation Graph Clustering.

Event Graph Based Contradiction Recognition from Big Data Collection

基于短文本隐含语义特征的文本蕴涵识别

Finding deceptive opinion spam by correcting the mislabeled instances

基于协同训练的文本蕴含识别

基于半监督学习算法的虚假评论识别研究

Automatic Ontology Construction Based on Clustering Nucleus

基于信息单元融合的新闻原子事件抽取

基于知识话题模型的文本蕴涵识别

基于PU学习算法的虚假评论识别研究

基于图式的文本蕴涵识别初探

BioTSA: Annotating Token Semantic Association to Support Biomedical Text Mining

基于语义规则的中文矛盾关系识别方法

基于支持向量机的中文文本蕴涵识别研究

基于事件语义特征的中文文本蕴含识别

基于迁移的微博分词和文本规范化联合模型

基于卷积网络的句子语义相似性模型

基于CRF和半监督学习的中文时间信息抽取

文本蕴涵研究现状和发展趋势

基于多标签CRF的疾病名称抽取

基于SVM和CRF多特征组合的微博情感分析

一种联合抽取疾病、药物以及副作用事件的方法

基于事件链的汉语语篇连贯资源建设

面向产品评论分析的短文本情感主题模型

现代汉语非名词性空语类

词位重构与平行语言资源的再生性建设

Automatic Ontology Construction Based on Clustering Nucleus

基于信息单元融合的新闻原子事件抽取

基于知识话题模型的文本蕴涵识别

基于PU学习算法的虚假评论识别研究

题元角色理解与英语动词一词多义的认知与教学

Semantic Relation Annotation for Biomedical Text Mining Based on Recursive Directed Graph

微博关注网构建与统计分析研究

问答系统中基于维基百科的问题扩展技术研究

汉语语义场网络中的无标度分布现象

基于特征结构的汉语连动句语义标注研究

基于卷积网络的句子语义相似性模型

融入事件知识的主题表示方法

基于多标签CRF的疾病名称抽取

一个基于超图的词义归纳模型

移动互联环境下高等教育中的国情与省情教育面临的挑战和对策

一种联合抽取疾病、药物以及副作用事件的方法

一种基于GPU的并行三维各向异性扩散的超声图像斑点噪声滤波算法

基于列数据库和图缓存的海量RDF管理

基于句法分析的临床指南事件及事件关系提取

一种高密度关联数据压缩方案

基于事件指导的多文档生成式摘要方法

基于结构化事件的主题表示

基于矩阵分解和子模最大化的微博新闻摘要方法

融入显著性事件信息的标题生成方法

A Multiple Feature Approach for Disorder Normalization in Clinical Notes

基于知识图谱的精细化工辅助研发平台

基于事件链的汉语语篇连贯资源建设

文学典籍英译中的文化负载词问题思考——以《西游记》中的“相应”为例

谈谈显性非宾格动词句

隐性形式、扣合与句位变体——以“是……的”句的句位变体研究为例

基于语言现象的文本蕴涵识别

基于关键词精化和句法树的商品图像句子标注

副词“一定”的情态意义和相关功能研究

规则与统计相结合的主谓谓语句的日汉机器翻译研究

基于物性结构的事件演化语义模型

论语义阻碍在英语词位构成三个层面的表现

中文文本中实体数值型关系无监督抽取方法

基于概念特征的汉语交互类言说动词语义分析及同义词群的建构

中国古代岁时民俗文献研究

关于“是”字句主宾语的分析

现代汉语“数词＋名词”的事件语义及名词研究

中文美食开放链接资源库（LOD）建设实践

中文医学指南的事件处理及其语义数据自动生成

规约会话含义的意象图式理据

英汉多项状语并置语序差异的认知阐释——以工具、地点、频度和时间状语为例

表移动义“切”类动词的句法语义问题

基于事件结构的英语意动构式研究

SPES：基于谓词选择率估计的SPARQL查询优化方案

基于话题相关的文档集的无向基本要素网络的连通性探讨

基于图数据库的RDF数据分布式存储

一种基于本体的工业消防辅助调度系统实现

基于K值改进的K-means算法在入侵检测中的应用

“差一点”和“差不多”的语义差异及其认知解释

基于列式数据库的RDF数据分布式存储

重复图数据收缩清理策略

语言的隐显形式与“是……的”句的再分类

基于内容标签的消防知识推荐系统

基于论元结构和论元角色的英语-（a）tion型后缀动词名物词具体义研究

现代汉语评价类言说动词语义特征描写与义合网络的建构

Semantic Cache Replacement Strategy for XML Algebra-Based Query Optimization

符号学视角下京剧与歌舞伎脸谱对比研究——以关羽与源义经形象为例

面向产品评论分析的短文本情感主题模型

案例教学法指导下的商务日语教学改革方案——以商务礼仪教学为例

任务抢占策略在XML多核查询中的应用

义项归纳新探

基于任务抢占与数据分区的XML多核查询优化

基于中文自然语言的合理用药查询

语言学模因论指导下的日语多义词教学研究

期刊信息

《计算机应用》
北大核心期刊（2011版）

主管单位:四川省科学技术协会
主办单位:四川省计算机学会中国科学院成都分院
主编：张景中
地址：成都市人民南路四段九号科分院计算所
邮编：610041
邮箱：xzh@joca.cn
电话：028-85224283

国际标准刊号：ISSN：1001-9081
国内统一刊号：ISSN：51-1307/TP
邮发代号:62-110

获奖情况:
全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:53679