"非网页"资源是互联网用户关注的重要信息,数量巨大内容丰富,常由多种媒体类型成员构成。它不像网页以文本为主,没有URL标识,也不易自动分类挖掘,因此对这类资源自动组织、融合等方法的研究远不及网页。其原始组织方式有层次式目录树(如FTP、P2P文件系统)和扁平式标签(如优酷等网站发布平台)。目前用标签聚类形成分类体系试图改善标注散乱状态并保持大众习惯的做法,忽略了目录组织方式在层次性和大众性上的参考价值。本课题研究目的是用目录反映的组织规律指导基于标签自动构建具有自适应性的层次分类体系,探讨异构组织体系中资源的融合和有序化方法。研究内容有1)统计挖掘大众以层次方式组织资源时的共性规律;2)用上述规律改进标签聚类形成的层次分类体系T的合理性,使其具有自适应性;3)异构组织体系融合方法的研究,找到将散布的资源合并到T的方法,便于用户以统一的方式浏览访问;4)评估T对资源集合的覆盖能力。
hierarchical architecture;resource;organization;tag tree;auto-adaptability
面对网上种类繁多、使用广泛的“非网页”数字资源(以下简称资源),其组织体系无论采用何种方式都应符合用户认知习惯、便于查找。本课题的研究分为两部分主要内容第一,发掘大众在资源组织上的特征;第二,针对典型类别的异构资源,研究有效的组织融合模式与实现方法。我们的目标是形成契合用户认知、符合资源特点、有良好导航效率的组织模式,便于用户利用;且具有自动适应性,能满足不断发展的资源规模。 本课题沿着数据收集->用户组织行为->自动组织方法->效果评价四个步骤展开研究,具体内容包括(1)研究大众在使用层次目录方式组织资源时的一般规律和特征;(2)研究基于标签的扁平组织结构自动层次化的算法,使所形成的层次组织结构更贴近用户习惯,并具有较高导航效率;(3)研究对于层次标签的主题建模,用机器学习方法自动发现主题、主题的上下位关系,通过自动赋予标签,形成层次组织体系的自适应性。提出一种把不带标签的数据中的主题融合到已有的主题结构中的方法;(4)设计评价指标,对层次组织体系的节点语义、结构平衡性等方面进行评价;(5)研究典型资源的组织融合新方法,重点对文献类资源,以要点发现为基础,按要点线索组织资源,并在这一组织模式下实现检索服务的原型系统。