基于Lattice的汉语语音主题分类方法研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于Lattice的汉语语音主题分类方法研究

项目名称：基于Lattice的汉语语音主题分类方法研究
项目类别：青年科学基金项目
批准号：60702053
申请代码：F010402
项目来源：国家自然科学基金
研究期限：2008-01-01-2010-12-31

项目负责人：张磊
负责人职称：教授
依托单位：哈尔滨工程大学
批准年度：2007

中文摘要：

随着互联网的普及，越来越度的信息以语音形式存储及传播，如何地这些海量数据进行有效嘎你，方便用户查找和使用相关信息，已经成为亟待解决的问题。汉语语音主题分类方法研究是从语义级别考虑对其进行分类管理，为解决上述问题提供有效的途径。同时该方向是一个未成熟的且极具潜力的研究领域，还存在许多技术难点。为了有效避免语音识别系统中误识率对后续分类结果的影响，本项目以识别系统的二维音节网格输出为切入点，深入研究了实现主题分类的若干问题，包括语音文档分类平台的设计、主题分析中关键信息获取问题研究、语言学模型及其对识别分类性能的影响，以及二维音节网格的优化问题，在基于音节网格的基础上生成混淆网络，通过构造字典抽取词信息进行分类。该研究可广泛用于对广播/电视、会议记录，和互联网上语音信息实现基于主题的自动分类，以及对数字图书馆中包含语音信息的资料分类和管理，并实现基于主题的语音信息的查找。

中文主题词：汉语语音分类；主题分类；网格；混淆网络

结论摘要：

英文主题词classification of Chinese spoken document; topic analysis; lattice; confusion network

成果综合统计