主题词是人们快速了解文本内容、把握其主题的重要方式之一。文本主题词标注已广泛应用于搜索引擎、新闻服务、电子图书馆等领域,具有重要的科学意义和广泛的应用价值。本项目将进行以下几方面的研究构建面向典型应用的大规模Web主题词标注语料库;研究适合中文主题词标注的词语边界和粒度确定方法;研究关键词抽取和关键词分配相结合的主题词标注方法;研究在社会标签推荐中充分引入标签之间关系的方法;研究适合中文社会标签系统特点的动力学模型和演化模式分析模型;研究综合考虑主题词粒度、边界和演化等特性,能够与时间基本同步的中文主题词自动标注方法及系统,并在热点事件跟踪、用户兴趣发现等典型任务上验证其有效性。本项目预期成果将大大丰富和深化中文主题词自动标注的研究,在相关计算方法和技术上实现一次跃迁,对Web规模的信息组织与检索乃至网络时代的中文信息处理研究具有重要意义。
Keyword extraction;keyword assignment,;keyword annotation;information retrieval;Chinese information processing
主题词是人们快速了解文本内容、把握其主题的重要方式之一。文本主题词标注已广泛应用于搜索引擎、新闻服务、电子图书馆等领域,具有重要的科学意义和广泛的应用价值。本项目面向互联网场景的主题词自动标注问题,着重开展了以下几方面的研究(1)构建面向典型应用的大规模主题词标注语料库,研究适合中文主题词标注的词语边界和粒度确定方法,研究在社会标签推荐中充分引入标签之间关系的方法,面向社会媒体用户、政府工作报告等场景,提出一系列有效的主题词标注算法,整理开源了THULAC中文词法分析工具包,THUTag关键词抽取与社会标签推荐工具包。(2)吸收深度学习与表示学习的最新研究成果,研究适用于关键词和社会标签的表示学习模型,充分利用维基百科等在线知识库信息,研究综合考虑主题词粒度、边界和演化等特性,能够与时间基本同步的中文主题词自动标注方法及系统。(3)在热点事件跟踪、用户兴趣发现等典型任务上验证本项目成果的有效性,成功用于社会媒体用户、政府工作报告等的主题词分析,在新浪微博等国内著名社交媒体上开发微博关键词应用,根据用户发表微博抽取反映其兴趣的主题词,截至目前已经获得超过350万注册用户,获得较为广泛的社会反响。本项目在上述研究方面均取得了很有价值的研究结果。已经发表和录用的相关学术论文共23篇(国际期刊论文1篇,国内期刊论文6篇,国际会议论文11篇,全国性学术会议论文5篇),其中包括中国计算机学会A类会议论文(人工智能领域顶级会议IJCAI和AAAI)5篇,B类会议/期刊论文5篇(主要为EMNLP和COLING,均属于自然语言处理领域顶级国际会议),并有多项发明专利正在申请,圆满完成了本项目提出的研究目标。在人才培养方面,参加本项目的研究人员中,研究生已有8名毕业(获得博士学位4人,硕士学位4人)。另有9名博士生、3名硕士生在读。总之,本项目按照项目任务书上的研究内容和年度计划开展研究工作,完成了项目申请书上规定的各项研究任务,同时进行了必要的研究扩展。本项目的研究成果对中文主题词自动标注研究以及相关应用具有重要的参考价值。