位置:立项数据库 > 立项详情页
WEB智能搜索中的文本内容信任判定方法研究
  • 项目名称:WEB智能搜索中的文本内容信任判定方法研究
  • 项目类别:联合基金项目
  • 批准号:60970155
  • 申请代码:F02
  • 项目来源:国家自然科学基金
  • 研究期限:2010-01-01-2012-12-31
  • 项目负责人:曾国荪
  • 负责人职称:教授
  • 依托单位:同济大学
  • 批准年度:2009
中文摘要:

互联网中,海量Web信息自由开放,真假有益危害信息混杂一起。Web搜索时,回显信息多、有用知识少、内容不可信。因此,解决Web"内容信任"问题是一项紧迫工作。本项目以Web文本为对象,开展Web智能搜索中文本内容信任判定方法研究。从广泛社会信任现象中获得启示,研究蕴涵在信息文本中的信任素材,构建信任基因库;提炼内容信任的高级形式信任事实、信任证据、信任模式、信任关系链等,并给出形式化定义;探索基于摘要的内容信任定性感知规则;通过信任事实发现、证据推演、模式识别、关系传播,研究机器理解和全面获取信任语义的原理;建立信任语义网络,量化信任特征向量,提出信任度的非线性计算模型;针对纯文本、复合、链接文本等,给出Web文本的内容信任判定方法;设计一个信任语义驱动的元搜索引擎作为应用示范,并进行用户满意度统计验证。可见,该方法能改善Web搜索质量,提高信息查准率,对有效使用网络信息资源有意义!

结论摘要:

互联网中,海量Web信息自由开放,真假有益危害信息混杂一起。Web搜索时,回显信息多、有用知识少、内容不可信。因此,解决Web“内容信任”问题是一项紧迫工作。本项目以Web文本为对象,开展了Web智能搜索中文本内容信任判定方法的研究。从广泛社会信任现象中获得启示,分析搜集了蕴含在信息文档中的信任素材,给出了信任素材的原子性、完备性及信任语义的定义,构建了一个可扩展的信任“基因”本体库,中文英文总信任素材达到15000条。在信任素材的基础上分析多维信任特征,提炼出内容信任的若干高级形式信任事实、信任证据、信任模式、信任关系链等,并给出了相应的形式化定义。为了快速和定性判断文本内容的可信度,将信息文本视为单一整体,过滤和屏蔽非信任因素,给出了一个信息文本的信任摘要自动提取算法,实现了内容信任的简约感知。为了准确和自动判定文本内容的可信度,采用机器学习的智能化识别手段,提出了基于向量空间模型的信息文本信任属性抽取方法;构造了信任事实提取过程的状态转移自动机,给出了信任事实的发现方法;给出了信任证据的合成、信任证据真实性的计算规则、以及信任证据的多源求证理论;提炼了结构文本多种结构模式存在模式、一致性模式、顺序模式、格式模式、符号模式、关联句模式和成分模式等,给出了结构信任模式的分析检测算法。为了提高内容信任计算和判断精确度,确保信任事实、信任证据、信任模式等相互作用的合理性、有效性,构造了刻画信息文本的信任语义网络模型,以此反映各信任特征与最终信任度之间存在的复杂、组合、非线性关系,并且综合考虑信任属性、事实、证据等联合信任特征,设计了基于Bayesian网络的内容信任评价统一模型和算法。以Web文本为对象和整体,设计了纯文本信息的信任度计算流程,给出了基于信任模式验证的Web 文本可信度计算方法,给出了基于描述逻辑的信息文本可信评估方法,给出了信息文本不可信因素反向判断方法,给出了含有外部文本链接的Web 文本可信度的递归计算方法,最终实现了Web文本信任度的智能判断。将本项目提出的文本内容信任判定方法应用到Web智能搜索中,并且结合最优选择停止理论过滤不可信搜索返回结果,设计和实现了一个内容信任语义驱动的元搜索引擎作为应用示范,并进行了用户搜索满意度统计比较,结果表明该方法能有效改善Web搜索质量,提高信息查准率,对有效使用网络信息资源有重要的现实意义!


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 59
  • 11
  • 1
  • 0
  • 0
期刊论文
相关项目
期刊论文 32 会议论文 3
期刊论文 13 会议论文 14
期刊论文 74 会议论文 88 专利 1 著作 2
曾国荪的项目