位置:成果数据库 > 期刊 > 期刊详情页
基于子词PSPL的汉语语音文档索引
  • ISSN号:0255-8297
  • 期刊名称:应用科学学报
  • 时间:2013.5.30
  • 页码:259-265
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]解放军信息工程大学信息工程学院,郑州450002
  • 相关基金:国家自然科学基金(No.61175017)资助
  • 相关项目:基于分段条件随机场的连续语音识别技术
中文摘要:

针对汉语语音文档检索中最优识别单元和检索单元不一致的问题,提出一种基于子词(position specific posterior lattices, PSPL)的语音文档索引方法;该方法以词为识别单元对语音文档进行解码,得到PSPL;然后对PSPL进行子词切分,并根据子词弧与原始词弧的后验概率关系,将PSPL转换为相应的子词PSPL,以子词PSPL为索引进行查询项检索.实验结果表明,所提出的方法在利用丰富语言信息的同时,解决了词解码器存在的边界分割不正确的问题,检索性能明显优于目前普遍使用的识别单元和检索单元均为词的PSPL索引方法.

英文摘要:

A spoken document indexing method based on subword-based position specific posterior lattices (S- PSPL) is proposed to overcome inconsistency between optimal recognition unit and retrieval unit in the existing Chinese spoken document indexing methods. In the proposed method, a word-based PSPL is generated with a word-based speech recognizer. Each word in the PSPL is replaced by its constituent subword units. According to the posterior probability relationship between each word and its constituent subword units, the original PSPL can be converted to the corresponding S-PSPL to be used in generating a subword-based index for retrieval. Experimental results show that the new method can make use of a well-trained language model, and avoid incorrect segmentation in the word-based recognizer as well. Better performance is obtained compared to the current indexing methods that use words as both recognition and retrieval units.

同期刊论文项目
期刊论文 85 会议论文 9 获奖 2 著作 1
同项目期刊论文
期刊信息
  • 《应用科学学报》
  • 中国科技核心期刊
  • 主管单位:上海市教育委员会
  • 主办单位:上海大学 中国科学院上海技术物理研究所
  • 主编:王延云
  • 地址:上海市上大路99号123信箱
  • 邮编:200444
  • 邮箱:yykxxb@departmenl.shu.edu.cn
  • 电话:021-66131736
  • 国际标准刊号:ISSN:0255-8297
  • 国内统一刊号:ISSN:31-1404/N
  • 邮发代号:4-821
  • 获奖情况:
  • 首届中国高校优秀科技期刊,第2届中国高校优秀科技期刊奖,全国高校优秀科技期刊,中国科技期刊方阵双效期刊,上海市优秀科技期刊,首届《CAJ-CD》执行优秀期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),荷兰文摘与引文数据库,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:4747