东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

2005年863信息检索评测哈尔滨工业大学信息检索研究室技术报告

ISSN号：1003-0077
期刊名称：《中文信息学报》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]哈尔滨工业大学信息检索研究室,黑龙江哈尔滨150001
相关基金：国家自然科学基金资助项目（60435020,60575042,60503072）

作者：张志昌[1], 张宇[1], 高立琦[1], 袁新成[1], 胡晓光[1], 刘挺[1], 李生[1]

关键词：查询构造, 向量空间模型, 语言模型, 结果融合, query formulation, vector space model, language model, result combination

中文摘要：

首先用向量空间模型工具Lucene从全部网页正文信息中检索，再用语言模型工具Lemur对结果集进行重排序，然后将两次的结果进行融合，远回融合结果的前1000篇文档作为最终结果集。构造查询输入时，从主题的〈title〉字段和〈dese〉字段选择关键词，并依据tf＊idf的思想对关键词赋予权值。时正式评测的50个主题集检索，获得的三项评价指标为：程序自动构造查询时，MAP=0．3107，P@10=0．624，R-Preeision=0．3672；人工构造查询时，MAP=0．3538，P@10=0．684，R-Preelsion=0．4078。

英文摘要：

A rough set of relevant results is returned by Lucene, which based on vector space model, after searching all web pages, and is then reranked by Lemur, a language model based tool, to form a second set of relevant results. These two sets are combined by a linear interpolation into one set afterward and the top 1000 pages in it are returned as final results. When formulating queries from topics, key words of queries.are selected from 〈 title 〉 fields and 〈 desc 〉 fileds of topics, and weights of them are calculated using a modified ff ＊ idf method. In the official evaluation on 50 topics, MAP 0. 3107, P@ 10 0. 624, R-Precision 0. 3672 and MAP 0. 3538, P@ 100. 684, R-Precision 0. 4078 are achieved with queries constructed automatically and artificially respectively.

同期刊论文项目

中文短语及简单句的复述技术研究

期刊论文 38 会议论文 15

基于等价伪词的汉语全文无指导词义消歧技术研究

期刊论文 33 会议论文 15

问答式信息检索的理论与方法研究

期刊论文 104 专利 8

同项目期刊论文

短语结构树库向依存结构树库转化研究

统计词义消歧的研究进展

基于无指导机器学习的全文词义自动标注方法

复述技术研究综述

基于词汇支配度的汉语依存分析模型

Building a Dependency Treebank for Improving Chinese Parser

2005 年 863 信息检索评测哈尔滨工业大学信息检索研究室技术报告

基于语言模型验证的词义消歧语料获取

句法与词义相结合的中文代词消解

中文事件抽取技术研究

句法与词义结合的中文代词消解

基于层次聚类的自适应信息过滤学习算法

基于网络挖掘的实体关系元组自动获取

SUBDIVIDING VERBS TO IMPROVE SYNTACTIC PARSING

基于双语语料库的短语复述实例获取研究

话题检测与跟踪的评测及研究综述

一种基于主题的文本聚类方法

中文语义角色标注的特征工程

基于最大熵分类器的语义角色标注

基于信息增益改进贝叶斯模型的汉语词义消歧

基于网络挖掘的上下文相关词汇级复述研究

基于SVM的汉语句子片段划分

集成多种背景语义知识的共指消解

BOOTSTRAPPING FOR EXTRACTING RELATIONS FROM LARGE CORPORA

复述技术研究综述

基于词汇支配度的汉语依存分析模型

基于人工标注的个性化检索系统评测的研究

面向协作式问答的问题理解技术研究

Intra-document Coreference Resolution: The state of the art

基于子话题分治匹配的新事件检测

基于语义域语言模型的中文话题关联检测

信息过滤中基于二元近似关系分布的噪声屏蔽算法

句法与词义相结合的中文代词消解

中文人称名词短语单复数自动识别

基于层次聚类的自适应信息过滤学习算法

基于网络挖掘的实体关系元组自动获取

SUBDIVIDING VERBS TO IMPROVE SYNTACTIC PARSING

基于双语语料库的短语复述实例获取研究

话题检测与跟踪的评测及研究综述

一种基于主题的文本聚类方法

中文语义角色标注的特征工程

基于最大熵分类器的语义角色标注

基于网络挖掘的上下文相关词汇级复述研究

基于线索词识别和训练集扩展的中文问题分类

基于ontology抽取优化初始选择的检索结果聚类

集成多种背景语义知识的共指消解

BOOTSTRAPPING FOR EXTRACTING RELATIONS FROM LARGE CORPORA

基于信息融合的多文档自动文摘技术

基于词汇链的关键短语抽取方法的研究

统计词义消歧的研究进展

复述技术研究综述

基于词汇支配度的汉语依存分析模型

模式学习在QA系统中的有效实现

基于人工标注的个性化检索系统评测的研究

面向协作式问答的问题理解技术研究

一种基于无监督学习的词变体识别方法

语句级汉字拼音输入技术评估方法的研究

基于模式学习的形式化答案抽取技术与置信度评价方法

基于启发式错误驱动学习的中文时间表达式识别

利用模式及语言学特征提高阅读理解性能

开放领域的QA系统结构及性能分析

基于子话题分治匹配的新事件检测

基于语义域语言模型的中文话题关联检测

信息过滤中基于二元近似关系分布的噪声屏蔽算法

中文名实体识别：基于词触发对的条件随机域方法

应用粗糙集理论提取特征的词性标注模型

基于条件随机域的词性标注模型

基于多知识源的中文词法分析系统

基于特征类别属性分析的文本分类器分类噪声裁剪方法

Applying Rough Sets in Word Segmentation Disambiguation Based on Maximum Entropy Model

基于标题类别语义识别的文本分类算法研究

基于属性权重的Fuzzy C Mean算法

基于层次聚类的自适应信息过滤学习算法

SUBDIVIDING VERBS TO IMPROVE SYNTACTIC PARSING

支持向量分类和多宽度高斯核

基于双语语料库的短语复述实例获取研究

话题检测与跟踪的评测及研究综述

基于支持向量机的音字转换模型

基于链接聚类的Shark—Search算法

A Multi-level Disambiguation Framework for Gene Name Normalization

基于短语检索和答案排序的列表问题回答方法

基于线索词识别和训练集扩展的中文问题分类

基于ontology抽取优化初始选择的检索结果聚类

基于词聚类特征的统计中文组块分析模型

对文本分类评测方法稳定性的研究

一种基于Web的大规模人物社会关系提取方法

中文网页信息检索测试集的构建、分析及应用

利用支持向量回归确定相关Web查询

网页变化与增量搜集技术

基于浅层语义树核的阅读理解答案句抽取

多任务中文Web查询分析

信息检索中的聚类分析技术

基于搜索引擎日志发现相近Web查询

文档聚类综述

基于HowNet的词汇语义倾向计算

BOOTSTRAPPING FOR EXTRACTING RELATIONS FROM LARGE CORPORA

搜索引擎用户点击行为分析

条件随机域模型及在语言分析系统中的应用

一个普通话文语转换系统中的韵律模型

一种问答式检索系统布尔查询生成方法

k—bestMIRA和动态k-best MIRA

基于错误驱动算法组合分类器及其在问题分类中的应用

基于查询向量的英语话题跟踪研究

多文档文摘中句子优化选择方法研究

通过全局核降低高斯核的局部风险与基于遗传算法的两阶段模型选择

基于中心语块扩展的短语对齐

基于中心语块扩展的短语翻译对自动获取

面向动态演化的话题检测研究

利用语义词典Web挖掘语言模型的无指导译文消歧

一种特征匹配方法：稀疏特征树

利用词性信息改进Katz平滑算法

基于数字键盘的语句级汉字输入键音转换问题

基于多知识源融合的关键词重要性评价研究

一种改进的k-means文档聚类初值选择算法

基于句法结构分析的中文问题分类

一种基于相似度的汉语语言模型平滑技术及其在音字转换中的应用

多知识源融合的自动摘要系统研究与实现

计算机软件——统计词义消歧的研究进展

基于累积Logistic回归分析的文本段落聚类策略研究

A conditional random fields approach to Chinese pinyin-to-character conversion

使用机器学习方法进行新闻的情感自动分类

AN EFFICIENT APPROACH TO IMPORTANT BLOGGERS DISCOVERY

基于统计机器翻译模型的查询扩展

Analysis on n-gram statistics and linguistic features of whole genome protein sequences

Protein domain boundary prediction by combining support vector machine and domain guess by size algorithm

A new approach to query expansion in information retrieval

一种大规模高维数据快速聚类算法

基于语法分析和统计方法的答案排序模型

基于词汇集聚的文档相关性计算

基于语义的高维数据聚类技术

基于主题分析的文本分割技术研究

基于最大熵的依存句法分析

WORD SENSE DISAMBIGUATION BASED ON IMPROVED BAYESIAN CLASSIFIERS

RESEARCH OF PINYIN-TO-CHARACTER CONVERSION BASED ON MAXIMUM ENTROPY MODEL

初始化K-means的谱方法

基于粗集理论的中文关键词短语构成规则挖掘

AUTOMATIC TEXT SUMMARIZATION BASED ON TEXTUAL COHESION

一种基于混合策略的失衡数据集分类方法

基于等价伪译词模型的无指导译文消歧研究

一种基于粗糙集增量式规则学习的问题分类方法研究

《知网》在命名实体识别中的应用研究

期刊信息

《中文信息学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国中文信息学会中国科学院软件研究所
主编：孙茂松
地址：北京海淀中关村南四街4号中科院软件所
邮编：100190
邮箱：jcip@iscas.ac.cn
电话：010-62562916

国际标准刊号：ISSN：1003-0077
国内统一刊号：ISSN：11-2325/N
邮发代号:

获奖情况:

国内外数据库收录:
日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:9136