位置:成果数据库 > 期刊 > 期刊详情页
基于搜索引擎的双语混合网页识别新方法
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2011.1.1
  • 页码:71-78
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]苏州大学计算机科学与技术学院,江苏苏州215006
  • 相关基金:国家自然科学基金项目资助(61003152;60970057;60873105)
  • 相关项目:基于倾向性演化学习的新闻话题变种检测方法研究
中文摘要:

该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。

英文摘要:

A new approach has been developed for acquiring bilingual web pages from the result pages of search engines,which is composed of two challenging tasks.The first task is to detect web records embedded in the result pages automatically via a clustering method of a sample page.Identifying these useful records through the clustering method allows the generation of highly effective features for the next task which is high-quality bilingual web page acquisition.The task of high-quality bilingual web page acquisition is assumed as a classification problem.One advantage of our approach is that it is independent of the search engine and the domain.The test is based on 2 516 records extracted from six search engines automatically and annotated manually,which gets a high precision of 81.3% and a recall of 94.93%.The experimental results indicate that our approach is very effective.

同期刊论文项目
期刊论文 20 会议论文 14 著作 2
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136