东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于搜索引擎的双语混合网页识别新方法

ISSN号：1003-0077
期刊名称：中文信息学报
时间：2011.1.1
页码：71-78
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]苏州大学计算机科学与技术学院,江苏苏州215006
相关基金：国家自然科学基金项目资助（61003152;60970057;60873105）
相关项目：基于倾向性演化学习的新闻话题变种检测方法研究

作者：冯艳卉|洪宇|颜振祥|姚建民|朱巧明|

关键词： WEB挖掘, 双语混合网页, 平行语料, web mining, bilingual web pages, parallel corpora

中文摘要：

该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。

英文摘要：

A new approach has been developed for acquiring bilingual web pages from the result pages of search engines,which is composed of two challenging tasks.The first task is to detect web records embedded in the result pages automatically via a clustering method of a sample page.Identifying these useful records through the clustering method allows the generation of highly effective features for the next task which is high-quality bilingual web page acquisition.The task of high-quality bilingual web page acquisition is assumed as a classification problem.One advantage of our approach is that it is independent of the search engine and the domain.The test is based on 2 516 records extracted from six search engines automatically and annotated manually,which gets a high precision of 81.3% and a recall of 94.93%.The experimental results indicate that our approach is very effective.

同期刊论文项目

基于倾向性演化学习的新闻话题变种检测方法研究

期刊论文 27 会议论文 12

高精度的跨语言信息检索查询词自动翻译技术研究

期刊论文 34 会议论文 14

基于双语文档反馈的跨语言信息检索研究

期刊论文 20 会议论文 14 著作 2

同项目期刊论文

基于上下文的真词错误检查及校对方法

基于时序话题模型的新事件检测

基于Web的查询扩展

基于平行论元的隐式篇章关系推理研究

基于Tri-training算法的中文短语翻译自由度计算

事件关系检测语料库构建和分析

平行推理机制：一种新型的隐式篇章关系检测方法

A Novel Method for Parallel Resources Acquisition from Bilingual Web Page.

基于线索树双层聚类的微博话题检测

Divided Pretreatment to Targets and Intentions for Query Recommendation

基于功能连接词的隐式篇章关系推理

基于维基百科的未登录词译文挖掘

基于推理线索构建的事件关系识别方法

一种无指导的隐式篇章关系推理方法研究

基于核心词和实体推理的事件关系识别方法

可比较语料库构建及在跨语言信息检索中的应用

话题跟踪中静态和动态话题模型的核捕捉衰减

一种新型最优检索结果的发现与论证

基于全局用户意图的评论自动估价方法研究

一种基于分类的平行语料选择方法

基于语义依存线索的事件关系识别方法研究

事件关系检测的语言学资源、评测及研究综述

基于全局用户意图的商品评论自动估价方法研究

基于网络的跨语言信息检索中OOV译文挖掘研究

低频词的中文词性标注研究

网页中商品“属性—值”关系的自动抽取方法研究

基于平行语料库和网络的未登录词译文挖掘

基于决策树的关键短语抽取

基于加权复杂网络的中文文档关键短语抽取

基于音节首字母匹配的音译单元对齐方法

基于统计信息的未登录词的扩展识别方法

多分类器融合技术在自动作文评分中的应用

基于上下文的真词错误检查及校对方法

网页中商品“属性—值”关系的自动抽取方法研究

基于时序话题模型的新事件检测

基于Web的查询扩展

基于平行论元的隐式篇章关系推理研究

基于线索树双层聚类的微博话题检测

基于维基百科的未登录词译文挖掘

一种无指导的隐式篇章关系推理方法研究

微博文本处理研究综述

基于线索树双层聚类的微博文本话题检测

话题跟踪中静态和动态话题模型的核捕捉衰减

一种新型最优检索结果的发现与论证

基于全局用户意图的评论自动估价方法研究

基于统计的中文关键短语自动抽取

Information Gain method to Speed Up Online SVM Based Spam Filtering

面向信息检索的近邻语言模型

基于回归支持向量机的信息检索

Chinese Volitive Words Mining

Predicting Query Potential for Personalization Based on Ranking

高性能中文垃圾邮件过滤器

基于上下文的真词错误检查及校对方法

Linguistically-enriched Information Retrieval

Mining Parallel Corpus via Cross-lingual Information Retrieval

Geometric Session Detection Method for Sogou Log

Chinese Query Reformulation and Variation: A Case Study inSogou Log

话题跟踪中静态和动态话题模型的核捕捉衰减

中文信息检索中多索引策略融合的研究

期刊信息

《中文信息学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国中文信息学会中国科学院软件研究所
主编：孙茂松
地址：北京海淀中关村南四街4号中科院软件所
邮编：100190
邮箱：jcip@iscas.ac.cn
电话：010-62562916

国际标准刊号：ISSN：1003-0077
国内统一刊号：ISSN：11-2325/N
邮发代号:

获奖情况:

国内外数据库收录:
日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:9136