位置:成果数据库 > 期刊 > 期刊详情页
基于多类型文本的半监督性别分类方法研究
  • ISSN号:0253-2395
  • 期刊名称:《山西大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:苏州大学自然语言处理实验室,江苏苏州215006
  • 相关基金:国家自然科学基金重点项目(No.61331011);国家自然科学基金(No.61375073;No.61273320); 国家青年科学基金(No.61305088); 江苏省产学研联合创新资金——前瞻性联合研究项目(No.BY2014059-16)
中文摘要:

提出一种基于多种文本类型的半监督性别分类方法,即根据微博平台中用户所产生的不同类型的文本(如:原创微博、转发微博等)对用户的进行性别分类。文中的方法是一种基于协同训练(Co-training)的半监督学习方法,旨在减少分类器对大量标注样本的依赖。首先将不同类型的文本分为不同的独立视图;其次,在每个视图中利用LSTM分类器挑选置信度最高的未标注样本;最后,将挑选出来的未标注样本加入训练模型迭代训练。实验结果表明我们的方法能够有效利用非标注样本信息,并明显优于其他现有的半监督性别分类方法。

英文摘要:

This paper proposes a novel semi-supervised approach to gender classification by exploiting multiple types of texts in micro-blogs(e.g.,original text and forward text).The approach is a semi-supervised learning approach based on co-training which aims to alleviate the dependence on large amount of labeled data.We divide the different types of text into different independent views,and we apply LSTM classifier to select unlabeled samples with highest confidence in each view,finally,we make the training model updated by adding the new obtained high-confidential samples.The experimental results show that our approach is effective for exploiting unlabeled data and outperforms other existing semi-supervised approaches to gender classification.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山西大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:山西省教育厅
  • 主办单位:山西大学
  • 主编:杨斌盛
  • 地址:太原市坞城路92号
  • 邮编:030006
  • 邮箱:xbbjb@sxu.edu.cn
  • 电话:0351-7010455
  • 国际标准刊号:ISSN:0253-2395
  • 国内统一刊号:ISSN:14-1105/N
  • 邮发代号:22-42
  • 获奖情况:
  • 边疆七年获山西省一级期刊荣誉(1993-1999)
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:5651