东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于词矢量相似度的短文本分类

ISSN号：1671-9352
期刊名称：《山东大学学报：理学版》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]中国科学院声学研究所,北京100190
相关基金：国家自然科学基金资助项目（11161140319,9112C001,61271426）;中国科学院战略性先导科技专项项目（XDA06030100,XDA06030500）国家国家高技术研究发展计划（863计划）项目（2012AA012503）;中科院重点部署项目（KGZD-EW-103-2）

作者：马成龙[1], 姜亚松[1], 李艳玲[1], 张艳[1], 颜永红[1]

关键词：短文本分类, 词矢量相似度, 集外词, short text classification, word embedding similarity, out of vocabulary

中文摘要：

互联网中出现的短文本内容短小，相互共享的词汇较少，因此在分类过程中容易出现大量的集外词，导致分类性能降低。鉴于此，提出了一种基于词矢量相似度的分类方法，首先利用无监督的方法对无标注数据进行训练得到词矢量，然后通过词矢量之间的相似度对测试集中出现的集外词进行扩展。通过与基线系统的对比表明，该方法的分类正确率均优于基线系统1％-2％，尤其是在训练数据较少的情况下，所提出的方法的正确率相对提高10％以上。

英文摘要：

As the short length of the Web short text and less shared words, a lot of out of vocabulary （OOV） words would appear, and these words make the task of text classification more difficult. To solve this problem, a new general framework based on word embedding similarity was proposed. First, get the word embedding file with unsupervised learning method based on unlabeled data. Second, extend the OOVs with the similar words in training data through computing the similarities of different word embeddings. The comparison with the baseline system shows that the pro- posed method gets better 1%-2% rate and outperforms more 10% rate on small training data set.

同期刊论文项目

面向下一代互联网的超临场感声通信应用研究

期刊论文 50 会议论文 53

语音缺失频谱重建及语音频谱二维相关性建模的研究

期刊论文 28

同项目期刊论文

基于张量分解模型的语音信号特征提取方法

嵌入式中文语音合成系统非周期成分音节层建模方法

A novel cache size optimization scheme based on manifold learningin Content Centric Networking

一种结合G.719编解码器的参数立体声音频编解码扩展方法

A Novel Multichannel Audio Signal Compressing Method Based on Tensor Representation and Decompositio

Mapping methods for output-based objective speech quality assessment using data mining

Context-based adaptive arithmetic coding in time and frequency domain for the lossless compression o

Objective and Subjective Investigation on a Novel Method for Digital Reverberator Parameters Estimat

A sound image externalization approach for headphone reproduction by simulating binaural room impuls

A Policy-Based Web Service Redundancy Detection in Wireless Sensor Networks

Perceptual MVDR-based cepstral coefficients (PMCCs) for speaker recognition

成年口吃者流畅朗读中塞音的声学分析

多特征融合的英语口语考试自动评分系统的研究

可重构网络中基于中心度与拓扑势排序的资源分配算法

波场合成与波场分析的有源房间补偿方法

A Novel Cache Size Optimization Scheme Based on Manifold Learning in Content Centric

基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度

多领域系统融合在语音云系统中的应用

利用二重打分方法的激活词语音识别

鉴别性最大后验概率线性回归说话人自适应研究

语音中元音和辅音的听觉感知研究

鉴别性最大后验概率声学模型自适应

中文口语理解弱监督训练方法

语音识别中深度神经网络目标值优化

基于卷积神经网络的连续语音识别

语言声学与内容理解研究进展

Towards Qo E-based resource allocation schemes in SC-FDMA systems

基于频域逐级回归的声学回声控制

行驶汽车环境中的话音活动检测研究

Speex编码器中回声消除算法的分析与评估

面向语音增强的约束序贯高斯混合模型噪声功率谱估计

HMM-based noise estimator for speech enhancement

Acoustic characteristics of stop consonants in fluent reading Chinese Putonghua speech of adult stutterers

A forced alignment approach to detect Chinese repetitive stuttering

汉语连续语音识别系统中三音子模型的优化

ANC次级通道在线建模的辅助噪声控制方法

基于加权有限状态机的动态匹配词图生成算法

基于PLDA的多信道多语音说话人确认研究

高斯PLDA在说话人确认中的应用及其联合估计

汉语语言集外词检索算法的改进研究

基于非负矩阵分解的钢琴多音符估计

卷积神经网络在语音识别中的应用

面向口语统计语言模型建模的自动语料生成算法

基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度

多领域系统融合在语音云系统中的应用

利用二重打分方法的激活词语音识别

鉴别性最大后验概率线性回归说话人自适应研究

语音中元音和辅音的听觉感知研究

中文口语理解弱监督训练方法

语音识别中深度神经网络目标值优化

基于卷积神经网络的连续语音识别

面向语音增强的约束序贯高斯混合模型噪声功率谱估计

口语对话状态追踪的研究

基于艺人画像的歌曲点播量预测

传声器阵列波束比判决语音增强方法

HMM-based noise estimator for speech enhancement

基于CNN-SVM和转发树的微博事件情感分析

Acoustic characteristics of stop consonants in fluent reading Chinese Putonghua speech of adult stutterers

A forced alignment approach to detect Chinese repetitive stuttering

汉语连续语音识别系统中三音子模型的优化

ANC次级通道在线建模的辅助噪声控制方法

基于加权有限状态机的动态匹配词图生成算法

基于PLDA的多信道多语音说话人确认研究

高斯PLDA在说话人确认中的应用及其联合估计

汉语语言集外词检索算法的改进研究

基于非负矩阵分解的钢琴多音符估计

卷积神经网络在语音识别中的应用

面向口语统计语言模型建模的自动语料生成算法

基于概率语义分布的短文本分类

期刊信息

《山东大学学报：理学版》
北大核心期刊（2011版）

主管单位:中华人民共和国教育部
主办单位:山东大学
主编：刘建亚
地址：济南市经十路17923号
邮编：250061
邮箱：xblxb@sdu.edu.cn
电话：0531-88396917

国际标准刊号：ISSN：1671-9352
国内统一刊号：ISSN：37-1389/N
邮发代号:24-222

获奖情况:

国内外数据库收录:
美国化学文摘（网络版）,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,中国中国科技核心期刊,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,英国英国皇家化学学会文摘

被引量:6243