根据科学大师钱学森晚年提出的思维科学、开放复杂巨系统、人机共建的智能系统和综合集成的大成智慧等思想和理论,对基于人机共建智慧平台的语义搜索引擎的机理和关键技术进行系统研究,探索从海量信息到海量知识的转换,建立任何事物的知识库和个性化的知识库,最终实现人机自然对话。研究内容包括通用网页结构化信息抽取、复杂问题搜索、基于知识库的自然语言理解、人物的知识自动抽取和个人知识库的建立等。旨在研究各种产生知识的方法,扩大知识库的数量和质量,丰富知识库内容,增加知识库的精确性和准确匹配与搜索知识库内容。本项目的研究,可以综合人的智慧和信息检索技术,自动把互联网信息和人的行为等转化为知识,可以像人那样理解网页内容和用户搜索的意义,从而提供给用户准确而直接的搜索结果和答案。这对开启从信息技术向知识技术的巨大转变,从以数据为中心向以人为中心转变,开辟智能搜索引擎新领域具有重要意义和广阔的应用前景。
noetic science;semantic search engine;knowledge base;information extraction;
许多互联网应用,如语义搜索、自动问答系统等都需要知识库作为支撑。依靠专家人工编撰知识库费时费力,而且还存在知识覆盖率低,更新缓慢等诸多问题。如何自动构建大规模知识库是当今的研究热点问题。Web海量数据的产生与信息抽取技术的发展为大规模知识库自动构建提供了新的契机。针对Web海量数据下载效率过低与网页筛选问题,给出了基于Hadoop的网页并行下载算法与基于Pagerank的网页排序算法。针对Web网页风格多样化问题,给出了具有较高准确率、通用性较强的网页正文信息抽取方法。中文分词的准确率影响信息抽取的准确率,课题建立了海量分词词库,其中包括基本分词词库,专业术语词库、同义词词库;给出了基于大数据和综合集成方法的分词算法、词性标注算法和人名、地名、机构名命名实体识别算法,开发了中文分词、词性标注与命名实体识别云服务系统,该系统具有准确率高(99.8%)、切分速度快(20万字/秒)、码制多支持等特点。针对现今句法分析方法效率低、准确度不高的问题,借助云计算计算能力强的优势,探讨了在云计算平台上实现并行中文句法分析的方法。利用公开的语料库及开源的句法分析工具在Hadoop云计算实验平台上实现并行中文句法分析,实验结果证实了并行句法分析方法的可行性和有效性。针对人物、大学、医院等几千个领域,给出了基于Web的概念、实例、属性、及属性值提取算法,并建立了知识存储和索引系统;建立了查询问题分类、问题映射、问题扩展算法;实现了基于知识库的语义搜索原型系统。为大规模知识库自动构建以及语义搜索引擎提供了学术思想和技术路线。