网页上越来越多的图片内容,给视力残疾人的网页内容无障访问带来了巨大困难。视力残疾人通过读屏软件读取图片的替代文本描述来访问图片内容,信息获取带宽窄,而且缺乏视觉信息的辅助,在图片替代文本描述上有其独特的需求。现有的网页内容无障访问研究工作主要依靠人工添加文本描述,无法有效解决当前数量庞大的网页图片访问障碍问题。本项目通过研究分析视力残疾人网页内容访问的特点和他们对图片内容描述的需求,提出一个能够从网页内容和外部数据源中获取相关网页图片描述信息的无障图片描述研究框架,在该框架中研究网页图片的无障访问重要性排序、无障图片标注和基于标签的无障图片摘要的模型和算法等内容,解决面向视力残疾人网页内容无障访问的自动图片描述核心问题,更好的帮助视力残疾人实现网页内容无障访问,提升他们的上网体验。
Web accessibility;text summarization;image annotation;manifold learning;
网页图片普遍缺乏合适的文本描述,是视力残疾人访问网页内容时所面临的主要障碍之一。本课题研究团队针对视力残疾人网页内容访问的特点和他们对图片内容描述的需求,研究适合视力残疾人的图像语义描述方法,帮助他们更好的访问网页图片内容。 项目按照计划书所列研究内容顺利开展研究工作,围绕图像语义理解中所面临的“语义鸿沟”挑战和视力残疾人信息获取障碍等关键问题展开。项目的研究重点是如何在考虑图像空间几何分布结构的基础上,提高图像语义理解的性能和算法的可扩展性,以及如何有效提升视力残疾人信息获取效率。 到目前为止本项目共发表已标注资助论文14篇,其中SCI期刊论文10篇(影响因子大于2以上9篇),顶级会议论文4篇,新申请发明专利6项,获得授权发明专利2项,基于项目研究成果研发了网站无障碍检测原型系统。项目总体按照计划要求执行,并在摘要技术、高效图像语义处理、图像空间流形学习算法等领域取得了有效成果。较为突出的成果包括(1)针对视力残疾人在信息获取上所面临的速度慢、带宽窄等障碍,我们在研究工作提出了一种全新的基于最佳数据重构角度的文档摘要框架,大幅提升文档摘要质量,相关研究成果发表于人工智能顶级会议AAAI 2012,并获AAAI最佳论文奖(Outstanding Paper Award),这是中国大陆研究机构到目前为止唯一获奖。(2)针对现有图像检索与聚类等算法复杂度较高,难以扩展到较大数据集的不足,提出包括快速图排序、组稀疏特征选择、流形最佳实验设计等一系列面向高效图像语义处理的新算法等;(3)考虑图像空间的流形结构,提出多个基于流形学习的图像聚类算法。另外,项目研究团队基于项目研究成果研发了网站无障碍检测原型系统,目前已经在中国政府网站无障碍检测中投入使用,并结合应用实践进一步开展面向网站无障碍检测的网页采样算法研究工作。