广播语音识别是语音识别实用化研究的典型方向,也是多媒体/音频检索研究和应用的基础。广播语音易于采集,可以获得海量语音语料,但标注工作量大,目前缺乏可用的广播语音库。而且由于广播语音的复杂性以及分布的不均匀性,即使标注了大量广播语音数据用于训练,也难以避免产生数据稀疏现象。这些都影响了广播语音的声学模型建模。如何将广播语音库的建立和广播语音声学模型的训练结合起来,以最少的标注工作量,由海量未标注数据训练出更佳的广播语音声学模型,是一个值得研究的问题。利用主动学习,可以解决这个问题。主动学习是当前的研究热点,样本选择和快速学习是主动学习的主要研究内容,将主动学习用于广播语音声学建模,又有其特殊问题。本项目研究用于广播语音声学建模的主动学习问题,研究内容主要包括:用于主动学习的样本选择准则,用于主动学习的广播语音声学模型快速训练算法,用于广播语音声学建模的主动学习系统研究。