本课题选择汽车导航和交互式口语学习两个典型展示领域,研究实现以口语为主,融合行为、情感等信息的双向多模态人机交互。研究内容以对话管理为重点,包括对话管理模型、用户模型、基于对话预测的口语分析与理解、多模态响应信息生成等,突破多模态信息在识别理解尤其在对话管理层次的深度融合。本课题通过融入对话结构和对对话建模状态空间的分类,减少用户模型和管理模型对数据资源规模的要求,同时通过用户模型加强对话模型的建模能力。通过综合集成语音等多模态信息识别,本研究成果可广泛应用于改善各种人机对话系统的效率和方便程度,从而提高社会的信息化程度。
Spoken dialogue management;spoken language analysis;multi-modal information fusion;multi-modal human-computer dia;
本项目以对话管理研究为中心,以双向多模态口语人机对话为表现形式,通过典型应用场景实现对话管理和多模态信息对口语信息分析和理解的支撑。研究成果包括(1)建立了具备详细标注的典型对话口语语料库(CASIA-CASSIL)和面向市政服务领域的多轮回、长对话的真实口语对话语料库,并建立了多模态数据采集平台,通过该平台已构造多场景的多模态对话语料库;(2)完成了基于“云模式”的高性能语音识别、合成和翻译技术和服务,能满足不同多模态人机交互中不同领域、不同环境下对语音交互性能要求;(3)完成了面向多模态人机交互的拟人化的虚拟人原型系统,虚拟人能够理解包括语音在内的来自用户的典型多模态输入和输出行为(包括头姿、手势、表情、典型指令等);(4)研究建立了基于MDP的对话模型,MDP能够比较有效地刻划对话的结构,具有一定的领域无关特性,同时MDP预测结果的加入提高了SVM识别的正确率,加上利用基本名词短语、邻接对、主题、频率、位置等特征,能进一步对话行为的理解正确率;(5)形成了比较系统的多模态对话生成架构和语言描述,同时研究了口唇、手势、表情等自然生成算法,有效地解决了语音与其它模态信息在强耦合和弱耦合情形下的融合问题,并完成了一系列的多模态相应生成,为研究可交互的虚拟人打下了结实的基础;(6)基于上述研究完成了面向天气预报和交通信息查询的2个多模态对话演示系统“北京市的交通信息查询系统”和“面向世界著名城市的天气信息查询系统”,系统建立的多模态对话管理模型,能灵活处理具有置信度的语音、视觉、行为和情感等多模态信息,对于用户输入的指定查询信息,通过预测能有效降低意图识别错误率;(7)目前在国内和国际重要期刊和会议上已发表论文60余篇,申请和授权发明专利12项,申请软件著作权5项,在执行期间与中新数字媒体研究院与新加坡国立大学(NUS)等展开了学术交流。本项目完成了预期目标,研究成果为基于语音感知的多模态新型人机方式的发展提供理论和技术基础,可方便地作为人机交互界面集成到各种人机对话系统中,改善对话系统的效率和方便程度,从而提高社会的信息化程度。