基于内容理解的网络信息处理可以提高计算机自动处理网络信息的能力,对于信息检索、分类、过滤等智能应用都有非常重要的意义。语义Web是Internet发展的重要趋势,基于本体的网络信息处理是提高网络信息处理智能化的关键技术。根据目前网络信息的现状和发展趋势,本项目将重点研究基于本体的中文网络信息处理中的若干关键技术,以基于本体的知识处理与自然语言处理技术相结合为技术途径,达到提高中文网络信息结构化的目标。本项目将研究基于DAML+OIL的领域本体的构建和描述理论,设计基于领域语料的自动或半自动本体构建方法;在此基础上,面向具体领域,建立基于本体的网络信息结构化理论和方法,抽取网络信息的语义元数据,以增强网络信息结构化程度,提高网络环境下自然语言处理的水平,为更加深入、准确地理解网络信息提供基础。
基于本体的网络信息处理是提高网络信息处理智能化水平的关键技术。本项目在基于本体的网络信息结构化框架的指导下,以基于本体的知识处理与自然语言处理技术相结合为技术途径,重点研究了基于本体的中文网络信息结构化的问题。在网络信息结构化的基础上,开展了信息检索和过滤的研究,以检验网络信息结构化技术的应用效果。主要成果包括提出了整体结构和角色模型以扩展本体描述语言;基于知网(HowNet)和领域语料实现了本体构建和种群扩充;设计并实现了汉语多层次分析方法;提出了结合自然语言分析和机器学习的实体及实体间语义关系识别方法,实现了基于本体的语义元数据抽取;在网络信息结构化的基础上,开展了基于本体的智能信息处理研究,提出并实现了基于本体的信息过滤方法和基于事件本体的话题发现和跟踪处理方法。基于以上成果,本项目设计和实现了多个原型工具和系统,并进行了实验验证和应用。通过本项目的研究,我们基本形成了基于本体的网络信息结构化框架,并在增强网络信息结构化的关键技术上获得了进展,为更加深入、准确地处理网络信息提供了基础。