东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于标点信息和统计语言模型的语音停顿预测

ISSN号：1003-6059
期刊名称：《模式识别与人工智能》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]北京工业大学计算机科学学院,北京100022, [2]山西大学计算机与信息技术学院,太原030006, [3]北京语言大学信息科学学院,北京100083
相关基金：国家自然科学基金资助项目（No.60572159,60573184,60473139）

作者：钱揖丽[1,2], 荀恩东[3]

关键词：标点符号, 语音停顿, 统计语言模型, 语料获取, Punctuation Marks, Speech Pause, Statistic Language Model, Corpus Obtaining

中文摘要：

语音停顿被认为是有声语言的标点符号．在语言交流中，说话人会在韵律短语的边界处插入长短不同的停顿．利用这一性质，在调查标点符号停顿作用的基础上，提出基于标点信息预测语音停顿的思想，阐述基于标点和统计模型的训练语料自动获取以及语音停顿预测方法，讨论训练语料规模对模型性能的影响，并比较基于标点信息的自动获取语料与人工标注语料的性能．实验结果显示，汉语的标点提供有价值的停顿信息，基于汉语标点信息能够有效预测语音停顿．

英文摘要：

Speech pauses are considered as punctuation marks of spoken language. People always insert different pauses at the boundaries of rhythmic phrases when communicating by language. Based on this characteristic, the speech pause of punctuation marks is investigated and the concept of predicting speech pauses using punctuation information is proposed. The punctuation-based and SLM-based methods are introduced to obtain training corpus and predict speech pauses. The influence of training corpus size on the performance of model is discussed. And the performance of punctuation-based corpus and manually-labeled corpus is compared. Experimental results show that the Chinese punctuation supplies valuable information on pause, and the method based on punctuation information can predict the Chinese speech pauses effectively.

同期刊论文项目

非母语写作水平计算机自动评测技术研究

期刊论文 5 会议论文 4

基于词语相似关系的统计数据平滑研究

期刊论文 29 会议论文 6 著作 3

大规模中文文本语料库分词与词性标注一致性检验技术研究

期刊论文 21 会议论文 6

同项目期刊论文

HSK自动作文评分的特征选取研究

应用二叉树剪枝识别韵律短语边界

基于最大熵模型的汉语短语间停顿识别

基于分类回归树CART的汉语韵律短语边界识别

信息检索自然语言查询问句处理框架

基于SLM的二叉树在语音停顿预测中的应用

基于标点信息和统计模型的语音停顿预测

基于最大熵模型的汉语短语间停顿识别

汉语语音韵律边界的声学特征及停顿等级识别

一种面向构型计算的汉字字形形式化描述方法

基于多特征的自适应新词识别

现代汉语跨标点句句法关系的性质研究

否定词跨标点句管辖的判断

汉字的笔段网格字形描述及字形比对算法

字音转换策略介绍及性能代价评估

基于GDI_路径技术的汉字笔顺和部件自动绘制

信息检索需求描述中的词语区域凸显

汉字字形计算及其在校对系统中的应用

采用术语定义模式和多特征的新术语及其定义识别方法

基于分类回归树CART的韵律短语边界识别

现代汉语通用分词系统中歧义切分技术

人物资料提取系统

留学生错字数据库

汉字字形形式化描述方法研究

基于GDI＋路径技术的汉字笔顺和部件自动绘制

文本聚类在大学英语作文自动评分中应用

中国EFL学习者自动作文评分探索

藏族人名汉译名识别研究

自动作文评分研究综述

基于分类回归树CART的汉语韵律短语边界识别

一种基于软模式的语义类发现方法

A Study on Pattern Generalizat

中文文本语料库分词一致性检验技

基于小句相似度计算的专有名词识

语料库词性标注一致性检查方法研

中文分词中歧义切分处理策略

中文语料库分词不一致的分类处理

利用支持向量机实现动词—动词搭

农作物信息抽取系统的设计与实现

基于改进的隐马尔科夫汉语词性标

汉语语料库词性标注自动校对方法

基于分类的汉语语料库词性标注一

规则与统计相结合的分词一致性检

现代汉语缩略语自动识别的方法研究

规则与统计相结合的分词一致性检验

中文语料库分词不一致的分类处理研究

利用支持向量机实现动词-动词搭配的自动标注

汉语句法树库检索系统的设计与实现

基于小句相似度计算的专有名词识别

汉语NP识别方法的实验比较研究

期刊信息

《模式识别与人工智能》
中国科技核心期刊

主管单位:中国科学技术协会中国自动化学会
主办单位:国家智能计算机研究开发中心中国科学院合肥智能机械研究所
主编：郑南宁
地址：安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
邮编：230031
邮箱：bjb@iim.cas.cn
电话：0551-5591176

国际标准刊号：ISSN：1003-6059
国内统一刊号：ISSN：34-1089/TP
邮发代号:26-69

获奖情况:

国内外数据库收录:

被引量:10169