位置:成果数据库 > 期刊 > 期刊详情页
基于频率共现熵的跨语言网页自动分类研究
  • ISSN号:1000-5862
  • 期刊名称:江西师范大学学报(自然科学版)
  • 时间:0
  • 页码:240-245
  • 分类:TP272[自动化与计算机技术—控制科学与工程;自动化与计算机技术—检测技术与自动化装置]
  • 作者机构:[1]江西师范大学计算机信息工程学院,江西南昌330022, [2]江西财经大学现代教育技术中心,江西南昌330013
  • 相关基金:国家自然科学基金(60963014); 江西省教育厅青年科学基金(GJJ10116);江西省教育厅科技课题(2007-129)资助项目; 江西省自然科学基金(2008GZS0052); 江西省科技攻关项目(2006-184)
  • 相关项目:基于潜在语义对偶空间的跨语言信息检索理论和算法研究
中文摘要:

研究了基于频率共现熵的跨语言网页自动分类问题,使用翻译软件将所有中文网页翻译为英文,计算中文和英文网页的共现特征频率共现熵值,确定中文和英文网页的共现知识,并与英文网页相结合训练中文分类模型.实验结果表明,该方法与贝叶斯分类模型、向量空间分类模型和信息瓶颈模型相比体现出良好的性能.

英文摘要:

An approach to address the cross-language web pages automatic classification problem based on frequently co-occurring entropy(FCE) is been proposed.The algorithm first translating all Chinese web pages to English by simple translation software.Second,computing the frequently co-occurring entropy using all Chinese and English web pages.Third,selecting the common part between Chinese pages and English pages based on the FCE ranks.Last,training a Chinese classification model by English pages with the common part.The experimental results in ODP corpus show the method performs well performance than NB,SVM and IB models.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《江西师范大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:江西师范大学
  • 主办单位:江西师范大学
  • 主编:
  • 地址:南昌市紫阳大道99号
  • 邮编:330022
  • 邮箱:lk8506184@126.com
  • 电话:0791-88506814
  • 国际标准刊号:ISSN:1000-5862
  • 国内统一刊号:ISSN:36-1092/N
  • 邮发代号:44-56
  • 获奖情况:
  • 2009年中国高等学校自然科学学报研究会颁发“全国...,2009年被评为:第四届华东地区优秀期刊奖”,2008年教育部科技司授予“第2届中国高校优秀科技...,2008年江西省新闻出版局授予“第3届江西省优秀期...,2004年教育部科技司授予“全国高校优秀科技期刊二...
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),波兰哥白尼索引,德国数学文摘,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:5205