认知科学的研究表明,人类在语言习得过程中,其他认知通道(如视觉)的信息具有重要的辅助作用。探索利用其他认知通道的信息辅助进行语言计算,有助于更深刻地理解人类语言处理的机制,为自然语言处理研究提供新的材料和思路,也为像基于语言命令的车辆自动驾驶这样一些需要多模态信息协同工作的任务提供合适的解决方法。本项目从人类语言认知发展的机理出发,研究如何在视觉信息的基础上建立语言的意义,力图在基于图像的汉语词汇习得和表示理论及关键技术上有所突破。项目着重研究基于图像-文本描述对的范畴化词汇聚类技术、视觉对象和描述词汇间的对齐和表示抽取技术、对象时空关系对齐和抽取技术,以抽取各类汉语词汇基于视觉信息的语义表示;研究针对描述对象间时空关系的句子语义分析技术,以抽取对象间时空关系的视觉语义描述;结合这些技术,实现一个可以为句子语义生成图像描述的原型系统,在基于语言命令的车辆自动驾驶任务中进行演示验证。
Language Grounding;Meaning Acquisition;Multimodal;Cognitive Mechanism;Description Generattion
认知科学的研究表明,人类在语言习得过程中,视觉通道的信息具有重要的辅助作用,许多语言信息源于视觉感知,即所谓语言的视觉接地。本项目研究在视觉信息的基础上建立语言的意义,取得了如下成果 提出了一个基于图像信息的词汇语义习得模型ViMac。该模型建立了基于静态图像信息的词汇意义习得和表示方法,该方法主要关注名词、形容词和方位词。模型的核心部分包括基于Hellinger距离的语义关联度计算、基于混合度量的词聚类、基于多维Hellinger距离的视觉特征选择以及空间方向关系的形式化描述与模糊判定,由此来实现视觉特征和语言词汇的对应。进而,为了能对新图像特征值进行语言描述,提出了一种基于核心成分的视觉语义表征,基于这种表征方法提出了面向新图像特征值描述的复合词生成算法,该算法可生成训练数据中未出现到的复合词以描述训练集中未出现的新图像特征值。在此基础上,实现了一个为静态图像自动生成自然语言描述的系统。 提出了一个基于视频信息的动词词汇语义习得模型ViMac-V。针对动词的特点,项目采用框架+论元的语言学结构来构建基于视频特征的动词语义,利用框架来组织视频情景中运动的各种认知属性,而论元则被框架支配来实现对具体运动属性的描述。项目首先基于视觉特征与词共现信息、词性信息以及最小编辑距离进行论元的词类划分,并利用二元语法模型进行动词框架的提取。进而,通过构建自组织神经网络组来实现动词语义与视频信息的关联。其中,基于学习矢量量化的框架激活机制将视频所凸显的反映运动信息的各属性结构与动词框架相关联;而对论元则通过SOM网络将其在视觉空间中范畴化。范畴化后的SOM网络连接了高维视频特征分布和论元词汇,再通过框架支配各个带词汇化标签的SOM子网络,组成不同的动词视觉语义。在此基础上,实现了一个为视频自动生成自然语言描述的系统。 完成的ViMac和ViMac-V模型已经部署在机器人平台上。同时,也在模型车上实现了一个基于自然语言指令的车辆行驶控制演示系统,模型车能依据自然语言指令行驶。 除了基于认知的语言接地的上述工作,基于语言意义习得的发展性,即语言意义是从儿童时起按某种特定顺序逐步习得的,视觉信息在语言发展中可以为儿童语言习得提供先验知识,本项目同时研究了基于儿童语言习得机理的语言习得计算模型,提出了一种阶段性儿童语言习得模型。