位置:立项数据库 > 立项详情页
面向文本分类的迁移学习和半监督学习方法研究
  • 项目名称:面向文本分类的迁移学习和半监督学习方法研究
  • 项目类别:面上项目
  • 批准号:61175053
  • 申请代码:F030504
  • 项目来源:国家自然科学基金
  • 研究期限:2012-01-01-2015-12-31
  • 项目负责人:唐焕玲
  • 依托单位:山东工商学院
  • 批准年度:2011
中文摘要:

针对文本分类技术面临的标注瓶颈、数据同分布假设不成立等突出问题,本项目拟进一步深化和拓展面向文本分类的迁移学习和半监督学习方法研究工作,主要包括研究基于近邻分类一致性的实例迁移新方法,提出TranCo-training分类模型;融合迁移学习与半监督学习方法,从基分类器的正确性与差异性的角度,进行基于实例的知识迁移,增强分类模型的泛化能力和学习能力;在基于投票分歧维护样本权重的新策略与基于置信度的实例迁移基础上,提出新的TranSemiBoost分类模型;通过比较已有分类器在测试样本附近的分类边界与测试数据聚类决策边界一致性,提出基于图模型的关联知识迁移学习方法;以交叉领域的共享特征词所隐含的主题类别为纽带,建立联合概率分布模型,提出基于特征的迁移学习方法。该项研究对于促进机器学习与文本分类技术的发展有重要意义,所获得的研究成果对于机器学习和数据挖掘的其它研究也有较大的参考价值和借鉴作用。

结论摘要:

文本分类技术是机器学习、数据挖掘、网络挖掘、自然语言处理等领域的研究热点,但是面临着标注训练样本匮乏、数据同分布假设不成立等突出问题。本项目重点面向文本分类的半监督学习、迁移学习和集成学习等方法研究方面进行了深入研究,提出了多种新颖方法,主要包括研究决策树、贝叶斯、粒子群分类等算法的改进方法;研究半监督学习方法,提出基于TEF_WA技术的TV-SC和TV-DC新方法、利用互信息、CHI统计量构建特征独立模型和特征子集划分方法、提出了基于特征独立模型的SC-PMID新的分类算法;研究集成学习方法,提出了基于投票熵维护样本权重的新策略,提出了新的BoostVE分类模型,提升朴素贝叶斯分类器的泛化能力;深入研究迁移学习方法,提出了基于近邻一致性度量实例迁移能力的计算新方法、提出了TranCo-training分类新模型、融合Boosting技术提出了基于预测一致性的领域适应模型;融合半监督学习和集成学习方法,从增加基分类器之间的差异性角度,提出了一种基于置信度重取样的SemiBoost-CR分类新模型。未标注样本的聚类结果、主题的正确提取和摘要,对迁移学习与半监督学习算法有很大影响,本项目对聚类学习和文本摘要进行了深入研究,提出了若干种新方法,主要包括基于形态学的单词-文档谱聚类方法、基于模糊-调和均值的单词-文档谱聚类方法;自适应主题融合的多文档自动摘要算法,以及主题敏感的多文档自动摘要算法。本项目研究的算法不仅可以应用于文本分类,还可拓展到图像分类领域,因此在图像特征提取、图像分割等方面开展了研究,提出了若干新方法。本项目研制实现了一个中英文文本分类系统,集成了所提出的各种分类算法,具有很好的实用价值。本项目的研究对于促进机器学习与文本分类技术的发展有重要意义,所获得的研究成果对于机器学习和数据挖掘的其它研究也有较大的参考价值和借鉴作用。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 34
  • 4
  • 0
  • 2
  • 2
相关项目
期刊论文 38 会议论文 12 获奖 2 著作 1
期刊论文 18 会议论文 13 专利 2
唐焕玲的项目