WEB智能搜索中的文本内容信任判定方法研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

WEB智能搜索中的文本内容信任判定方法研究

项目名称：WEB智能搜索中的文本内容信任判定方法研究
项目类别：联合基金项目
批准号：60970155
申请代码：F02
项目来源：国家自然科学基金
研究期限：2010-01-01-2012-12-31

项目负责人：曾国荪
负责人职称：教授
依托单位：同济大学
批准年度：2009

中文摘要：

互联网中，海量Web信息自由开放，真假有益危害信息混杂一起。Web搜索时，回显信息多、有用知识少、内容不可信。因此，解决Web"内容信任"问题是一项紧迫工作。本项目以Web文本为对象，开展Web智能搜索中文本内容信任判定方法研究。从广泛社会信任现象中获得启示，研究蕴涵在信息文本中的信任素材，构建信任基因库；提炼内容信任的高级形式信任事实、信任证据、信任模式、信任关系链等，并给出形式化定义；探索基于摘要的内容信任定性感知规则；通过信任事实发现、证据推演、模式识别、关系传播，研究机器理解和全面获取信任语义的原理；建立信任语义网络，量化信任特征向量，提出信任度的非线性计算模型；针对纯文本、复合、链接文本等，给出Web文本的内容信任判定方法；设计一个信任语义驱动的元搜索引擎作为应用示范，并进行用户满意度统计验证。可见，该方法能改善Web搜索质量，提高信息查准率，对有效使用网络信息资源有意义！

中文主题词： Web 搜索；信息文本；信任语义；内容信任；信任判定

英文摘要：

Web searching；information text；trust semantics；content trust；trust judgment

英文主题词： Web searching；information text；trust semantics；content trust；trust judgment

结论摘要：

互联网中，海量Web信息自由开放，真假有益危害信息混杂一起。Web搜索时，回显信息多、有用知识少、内容不可信。因此，解决Web“内容信任”问题是一项紧迫工作。本项目以Web文本为对象，开展了Web智能搜索中文本内容信任判定方法的研究。从广泛社会信任现象中获得启示，分析搜集了蕴含在信息文档中的信任素材，给出了信任素材的原子性、完备性及信任语义的定义，构建了一个可扩展的信任“基因”本体库，中文英文总信任素材达到15000条。在信任素材的基础上分析多维信任特征，提炼出内容信任的若干高级形式信任事实、信任证据、信任模式、信任关系链等，并给出了相应的形式化定义。为了快速和定性判断文本内容的可信度，将信息文本视为单一整体，过滤和屏蔽非信任因素，给出了一个信息文本的信任摘要自动提取算法，实现了内容信任的简约感知。为了准确和自动判定文本内容的可信度，采用机器学习的智能化识别手段，提出了基于向量空间模型的信息文本信任属性抽取方法；构造了信任事实提取过程的状态转移自动机，给出了信任事实的发现方法；给出了信任证据的合成、信任证据真实性的计算规则、以及信任证据的多源求证理论；提炼了结构文本多种结构模式存在模式、一致性模式、顺序模式、格式模式、符号模式、关联句模式和成分模式等，给出了结构信任模式的分析检测算法。为了提高内容信任计算和判断精确度，确保信任事实、信任证据、信任模式等相互作用的合理性、有效性，构造了刻画信息文本的信任语义网络模型，以此反映各信任特征与最终信任度之间存在的复杂、组合、非线性关系，并且综合考虑信任属性、事实、证据等联合信任特征，设计了基于Bayesian网络的内容信任评价统一模型和算法。以Web文本为对象和整体，设计了纯文本信息的信任度计算流程，给出了基于信任模式验证的Web 文本可信度计算方法，给出了基于描述逻辑的信息文本可信评估方法，给出了信息文本不可信因素反向判断方法，给出了含有外部文本链接的Web 文本可信度的递归计算方法，最终实现了Web文本信任度的智能判断。将本项目提出的文本内容信任判定方法应用到Web智能搜索中，并且结合最优选择停止理论过滤不可信搜索返回结果，设计和实现了一个内容信任语义驱动的元搜索引擎作为应用示范，并进行了用户搜索满意度统计比较，结果表明该方法能有效改善Web搜索质量，提高信息查准率，对有效使用网络信息资源有重要的现实意义!

成果综合统计