东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于网络挖掘的上下文相关词汇级复述研究

ISSN号：1000-9825
期刊名称：《软件学报》
时间：0
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001
相关基金：Supported by the National Natural Science Foundation of China under Grant Nos.60503072, 60575042

中文摘要：

词汇级复述研究旨在为词汇获取复述．词汇级复述是上下文相关的，即对同一个词在不同上下丈中应获取不同的复述词．提出了一种获取上下文相关词汇级复述的方法．该方法包括两部分：基于网络挖掘的候选复述词获取以及基于二元分类的复述词确认．在《人民日报》语料库上的实验结果表明：（1）基于网络挖掘的候选复述词获取方法是切实可行的，平均为每个待复述词在每个给定的上下文句子中获取2．3个正确复述词：（2）利用二元分类的方法进行复述确认是有效的，其，值达到0．6023；（3）利用该方法抽取得到的复述中，有75．11％和98.31％无法通过两种常用的上下文无关方法，即基于辞典和基于聚类的方法来获得，这证明了所提出的上下文相关复述方法可以有效地补充传统的上下文无关方法．

英文摘要：

Lexical paraphrasing is the task of extracting word-level paraphrases. Lexical paraphrases should be context dependent since a word may have different paraphrases in distinct contexts. This paper investigates a framework for acquiring context-dependent lexical paraphrases, in which a web mining method is developed for extracting candidate paraphrases and a classification method is introduced in paraphrase validation. Evaluations are carried out on the People＇s Daily corpus and the results show that：（1） the web mining method performs well in candidate paraphrase extraction, which extracts 2.3 correct paraphrases on average for each test word in each given context sentence; （2） the classifier for paraphrase validation is effective, which achieves an f-measure of 0.6023; （3） 75.11% and 98.31% of the paraphrases extracted by our method cannot be recognized by the two widely used context-independent methods, i.e., the thesaurus-based and clustering-based methods respectively. This indicates that the presented context-dependent method is a considerable supplement to the context-independent ones.

同期刊论文项目

基于等价伪词的汉语全文无指导词义消歧技术研究

期刊论文 33 会议论文 15

中文短语及简单句的复述技术研究

期刊论文 38 会议论文 15

同项目期刊论文

短语结构树库向依存结构树库转化研究

统计词义消歧的研究进展

基于无指导机器学习的全文词义自动标注方法

复述技术研究综述

基于词汇支配度的汉语依存分析模型

Building a Dependency Treebank for Improving Chinese Parser

2005 年 863 信息检索评测哈尔滨工业大学信息检索研究室技术报告

基于语言模型验证的词义消歧语料获取

句法与词义相结合的中文代词消解

中文事件抽取技术研究

句法与词义结合的中文代词消解

基于层次聚类的自适应信息过滤学习算法

基于网络挖掘的实体关系元组自动获取

SUBDIVIDING VERBS TO IMPROVE SYNTACTIC PARSING

基于双语语料库的短语复述实例获取研究

话题检测与跟踪的评测及研究综述

一种基于主题的文本聚类方法

中文语义角色标注的特征工程

基于最大熵分类器的语义角色标注

基于信息增益改进贝叶斯模型的汉语词义消歧

基于SVM的汉语句子片段划分

2005年863信息检索评测哈尔滨工业大学信息检索研究室技术报告

集成多种背景语义知识的共指消解

BOOTSTRAPPING FOR EXTRACTING RELATIONS FROM LARGE CORPORA

复述技术研究综述

基于词汇支配度的汉语依存分析模型

基于人工标注的个性化检索系统评测的研究

面向协作式问答的问题理解技术研究

Intra-document Coreference Resolution: The state of the art

基于子话题分治匹配的新事件检测

基于语义域语言模型的中文话题关联检测

信息过滤中基于二元近似关系分布的噪声屏蔽算法