本项目研究探讨使用语言特性分析来自动评估互联网文本信息的可靠性问题。为此,定义可靠性和真实性不足的信息为伪信息。包含伪信息的网络文本和主要企图欺骗搜索引擎的传统网页垃圾不同,其主要针对对象是互联网用户本身,即,试图欺骗或者误导它的阅读者。当今互联网上的伪信息分布泛滥及其严重的危害性迫切要求适当的技术手段加以应对。本项目通过明确定义可计算的伪信息(在此主要指文本伪信息),以及应用和发展基于语言特性分析的方法,使用两种新型的机器学习模型集成多重知识源来有效地自动鉴别这类信息。其中,多种基础性的自然语言处理技术,包括相似文本检索、语言风格识别、连贯性检测、命名实体分布统计、表达强度词典构建等针对性地用于实现伪信息特征表示。本项目有望最终发展出一整套系统化的技术框架来有效应对已日益严重的伪信息现象并针对性发展出一系列相关的基础自然语言处理技术。
pseudo-information;distributional characteristics;linguistic property analysis;information reliability;cognition
本项目针对的目标是研究一整套相关的自然语言处理技术,自动检测具有欺骗性的网络垃圾评论及其衍生的文字媒体内容,其表现为水文、软文,在本项目中定义为“伪信息”。本项目在执行中圆满完成了项目规划的研究目标,包括预定的语料标注、系统实现以及相关的各项关键技术研发,并有所额外拓展。本研究项目所涉及的是一个高度困难的文本级处理任务,要进行良好处理,我们在研究中发现,这需要涉及多种不同层面的语言处理子任务,因此,本项目资助下的技术创新除包括处理本项任务所涉及的传统文本分类的改进之外,还包括特别引入的心理学和认知科学方面的特征,以及更多的复杂深层次语言学特征,更包括最近几年兴起的深层神经网络方面的新型技术。本项目的关键技术研发始于实际的应用需求,但是在技术和理论上获得了意外的创新性的结果,导向了将认知科学和心理学与文本处理结合的新型道路(据我们最大范围所知,目前有关的综合研究鲜见报道)。这是本项目资助下的技术发展的最为显著性的学术性收获。在工程实验工作上,我们报告了鼓舞人心的结果,在研究成果上,有关工作发表在本领域顶级会议和期刊上(包括CCF-A/B类论文12篇,C类5篇)。我们在相关语言处理任务的技术评测上,也连续取得优异成绩。在衍生的相关应用领域研究上,包括中文深层处理、机器翻译和人机对话等多个领域也有所贡献。我们注重人才培养以及相关学术交流,本项目资助下,已累计培养各级学位学生23名,并成功举办第六届青年计算语言学会议以及PACLIC-29国际会议。