复述技术一直是自然语言处理与人工智能领域的重点和难点问题之一。可以说,复述能力的强弱直接体现了计算机"理解"人类语言的能力的强弱。复述技术在诸如机器翻译、自动问答、自动文摘、信息抽取、信息检索以及自然语言生成等诸多研究领域都有重要的应用价值。本课题的主要研究内容包括复述语料库的构建,词汇/短语级复述的获取,复述模板的抽取,复述句的生成以及复述的评测等方面。经过三年的研究,本项目在以下方面取得了一些进展(1)构建了一整套丰富的复述语料库,其中包括复述句库、复述短语库、复述模板库以及复述搭配库。这些获取到的复述资源既是我们前一阶段的研究成果,又为我们后续的研究提供了保证;(2)提出了一系列自动获取和生成复述的方法,这些方法具有语言相关性弱、可扩展性强的特点,并且已通过实验证明了其有效性;(3)尝试了将复述技术应用到其它研究领域当中去,尤其是将复述用于自动问答中的问句扩展以及关系抽取中的模板自动生成。实验结果表明,复述技术可以在上述研究领域中发挥重要作用。本项目对复述问题进行了多方位的探索和研究,既取得了初步的成果,也发现了可供进一步研究的问题,为今后在这一方向的研究打下了坚实基础。
英文主题词paraphrase corpora; paraphrase extraction; paraphrase generation; paraphrase evaluation