信誉是增强互联网可信性的重要机制。随着信誉机制的广泛应用,互联网蕴含着规模巨大的信誉信息资源。但是,现有信誉机制局限于特定网络社区,并没有对互联网中的信誉证据加以综合利用。鉴于信誉的社会性本质,局部片面的信誉证据难以构建客观有效的信誉机制,其导致的信任隐患在关键领域可能引起巨大灾难。因此,研究互联网环境下信誉证据的综合利用对提高网络信誉机制效能、增强互联网可信性具有重大意义。基于以上判断,申请者提出了互联网环境下的信誉组合问题,研究如何对分散在互联网中的信誉证据进行收集、转换和组合,以构造更为安全有效的互联网信誉机制。申请者拟采用逻辑程序理论构造信誉证据和信誉策略的描述和解释方法,基于D-S证据理论和层次分析法构造信誉证据组合方法,基于对等信誉权威网络(RAN)构造信誉证据发现和收集方法。拟研究的信誉组合问题和拟采取的研究方法为现有信誉研究提供了全新思路与可行方案。
Trust Evidence;Reputation Composition;Collaborative Development;Data Mining;Performance Analysis
开源社区是近年来互联网中一类非常活跃的软件协同开发社区,其中聚集和积累了海量的软件版本数据、开发数据和社交数据。本项目提出的信誉组合问题是研究如何对分散在互联网中的可信证据进行收集、转换和组合,以构造更为有效的互联网社区体的度量和评估机制。本项目以开源社区为背景将这一问题分解为如何从互联网中众多的开源社区中快速找到高质量软件的问题,以及在构建此类支撑平台时面临的性能维护问题。本项目的基本思路是采用数据挖掘的方法对不同社区的大规模数据进行全局汇聚与组合分析,实现对软件项目和软件开发者的可信评估和快速选择,以实现对高质量软件工程资源的利用。本项目在以下方面取得了创新成果(1)本项目提出一种基于互联网的开源软件可信证据框架(OSS-ATEF),能够支持面向整个开源软件演化过程的软件制品分析和评估;提出的基于缩进轮廓的Web列表数据抽取算法性能明显高于同类算法,提出的基于重复内容的异构多网页信息抽取算法仅需构建很小的种子集合其精确度和召回率即可达到99%。(2)本项目提出一种基于贡献度和角色配置结构的开发者信誉组合机制,建立了角色配置结构模型和分级方法;基于马尔可夫链随机游走模型提出一种开发者网络实体排序算法,能够有效支持主题和时间敏感的实体排序,提高了排序的准确性,支持开源社区中开发者在特定主题和特定时间范围内的综合信誉的计算。(3)本项目提出了一系列基于海量软件开发数据挖掘的软件自动分类算法,包括基于在线增量演化主题模型的软件分类算法、基于聚合式层次化聚类的开源社区软件术语本体学习算法等,为海量软件资源评估提供了一种新的领域知识库。(4)本项目针对海量数据挖掘平台的服务性能分析问题提出一种面向海量请求的服务行为特征描述方法和基于请求路径的云服务检测算法、基于追踪日志的自动化异常诊断框架等,能够对快速实现数据挖掘系统的性能问题定位和性能优化。(5)基于以上工作本项目研发了一种新的开源社区数据挖掘与分析平台(INFLUX),分析超过50万个开源项目和125万个开发者实体数据,部分工具实现开源,并于2011年6月以域名influx.trustie.net对外提供开源项目检索、项目排名和证据组合服务。本项目发表论文25篇,其中SCI检索2篇、EI检索16篇;形成专利7项,其中获授权1项。