文本是普遍使用的一种信息存储与传输媒体,利用数字水印技术保护文本版权以及对文本内容进行认证等具有重要意义。早期基于格式的文本数字水印技术不能抵御重新排版和光学字符识别攻击,实用价值不强。基于内容的自然语言文本水印技术代表了文本水印技术的发展趋势,但加载信息后的文本容易导致内容失真,使得它在政府公文、法律条文和文学作品等领域内难以应用。本项目首先对现有自然语言文本水印方法引起的文本失真情况进行评测,然后重点围绕自然语言文本可恢复水印的相关理论、方法与关键技术开展研究。主要研究内容包括自然语言文本水印的失真评测方法研究、大容量自然语言文本水印方法研究、自然语言文本压缩方法研究、自然语言文本的可逆变换研究等。通过本课题的研究,将在理论上为自然语言文本可恢复水印领域的研究提供新原理与新方法,在应用上为文本版权保护、文本认证等提供技术保障。
Natural language text watermarking;reversible watermarkinq;reversible transformation;compression coding;zero watermarking
信息技术的快速发展,各种类型的多媒体数据以数字化的形式在网络上发表和传播。然而由于网络的不安全性,数字化的多媒体数据很容易受到非法复制、拷贝和篡改。因此,必须对这些多媒体数据进行保护和内容认证。本项目针对早期基于格式的文本数字水印技术不能抵御重新排版和光学字符识别攻击、基于内容的自然语言文本水印技术加载信息后容易导致内容失真等问题进行了研究。在自然语言文本水印新方法研究方面,提出了多种基于同义词词林、词性频率、词语信息熵、句子多特征融合、依存句法以及云模型等的中文文本零水印方法,可以有效地避免内容失真,同时又能达到对自然语言文本进行内容认证的目的;在可逆变换方面,提出了六种可恢复水印方法;在文本压缩编码方面,提出了基于块编码、Huffman 编码、矩阵编码和词间依存关系的自然语言文本压缩方法;在水印评测方面,提出了两种预测方法。为自然语言文本可恢复水印的后续研究提供了良好的基础。