东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

一种基于搭配的中文词汇语义相似度计算方法

ISSN号：1003-0077
期刊名称：中文信息学报
时间：2013.1.31
页码：7-14
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]中国科学院计算技术研究所智能信息处理重点实验室,北京100190, [2]中国科学院大学,北京100049, [3]全国科学技术名词审定委员会,北京100717
相关基金：国家自然科学基金资助项目（60573063,60573064,60773059,61035004）;国家863计划资助项目（2007AA012325）;国家社科基金重点资助项目（10AYY003）.
相关项目：基于云计算的海量数据挖掘关键技术研究

作者：王石|曹存根|裴亚军|夏飞|

关键词：语义相似度, 词汇搭配, 相似度基准测试集, semantic similarity, word collocation, similarity benchmark set

中文摘要：

词汇间的语义相似度计算在自然语言处理相关的许多应用中有基础作用。该文提出了一种新的计算方法，具有高效实用、准确率较高的特点。该方法从传统的分布相似度假设“相似的词汇出现在相似的上下文中”出发，提出不再采用词汇在句子中的邻接词，而是采用词汇在二词名词短语中的搭配词作为其上下文，将更能体现词汇的语义特征，可取得更好的计算结果。在自动构建大规模二词名词短语的基础上，首先基于tgidf构造直接和间接搭配词向量，然后通过计算搭配词向量间的余弦距离得到词汇间的语义相似度。为了便于与相关方法比较，构建了基于人工评分的中文词；12语义相似度基准测试集，在该测试集中的名、动、形容词中，方法分别得到了0．703、0．509,0．700的相关系数，及100％的覆盖率。

英文摘要：

The word similarity measure plays a basic role in many NLP related applications. In this paper, we propose a novel and practical method for this purpose with acceptable precision. Guided by the classic distribution hypothesis that ＂similar words occur in similar contexts＂, we suggest the collocations in two-word noun phrases can serve as better contexts than the adjacent words because the former are more semantic related. By using automatic built large-scale noun phrases, we firstly construct tf-idf weighted words vectors containing direct and indirect collocations, and then take their cosine distances as desired semantic similarities. In order to compare with related approa ches, we manually design a benchmark test set. On the benchmark test set, the proposed method achieves the correlation coefficients of 0.703, O. 509, and 0.700 on nouns, verbs, and adjectives, respectively, at a coverage 100%.

同期刊论文项目

基于知识的多角色群体行为和情绪模型研究

期刊论文 27 会议论文 17

基于云计算的海量数据挖掘关键技术研究

期刊论文 72 会议论文 63 获奖 10 专利 7 著作 3

汉语科技语料库建设研究

期刊论文 9

从海量文本中获取概念的多重属性、多重关系以及它们的元性质

期刊论文 19 会议论文 7

基于本体的谓词模态逻辑研究

期刊论文 23

同项目期刊论文

基于边界和距离的离群点检测

领域问答系统中的文本错误自动发现方法

基于混合特征的上下位关系验证方法

概念空间中上下位关系的意义识别研究

一种基于交替投影的脏数据处理方法

基于相对可计算性理论的过程模式可计算泛函

不同逻辑间翻译的逻辑性质

描述语义Web服务的带类型的OWL-S

基于元性质的数量型属性值自动提取系统的实现

MUIS：一种新型的多领域信息共享联盟系统及其应用

基于LOBA逻辑的言语行为表示

逻辑之间的语义忠实语义满翻译

公式分层的谓词模态逻辑

基于一阶模态逻辑的模糊推理

低耗散且精确嵌入边界条件的流体模拟算法

国家知识基础设施中的数学知识表示

一种稳定、高效且保持细节的粘性流模拟算法

WNCT：一种WordNet概念自动翻译方法

面向知识处理的领域本体及其应用研究

维基百科统计分析研究

基于维基百科的语义知识库及其构建方法研究

一种交互式事件常识知识的获取方法

NewsMiner: Multifaceted news analysis for event search

A Service Framework for Scientific Workflow Management in the Cloud

Granular Computing Based on Gaussian Cloud Transformation

从Web中获取部分整体关系

异构网络学习排序模型及应用

Topic level expertise search over heterogeneous networks

A Chinese time ontology for the Semantic Web

A Web mining for causal relations between events

Answering contextual questions based on ontologies and question templates

Generalized multipath planning model for ride-sharing systems

基于ERN模型的分布式企业服务总线路由算法研究

Social Community Analysis via Factor Graph Model

Collective Intelligence and Uncertain Knowledge Representation in Cloud Computing

Modeling Interaction in Dynamic Social Networks

An efficient approach to representing and mining knowledge from Qing court medical records

Extracting terms from clinical records of traditional Chinese medicine

Labeling clusters from both linguistic and statistical perspectives: A hybrid approach

Who Influence You? Predicting Retweet via Social Influence Locality

An Approach to Design and Implement RFID Middleware System over Cloud Computing

An incremental community detection method for social tagging systems using locality-sensitive hashin

Extracting Structured Knowledge Base from Chinese Wiki Encyclopedia

Mining Commonsensical Semantic Relations from Noun-Noun Phrases

Personalized Tag Recommendation Using Social Influence

SMILE: Streaming Management of Applications and Data for Mobile Terminals

基于并列结构的部分整体关系获取方法

A Survey of Commonsense Knowledge Acquisition

Enhancing Recommender System by Incorporating Social Information

Social Interactions of an Event in Micro-blogging

领域问答系统中的文本错误自动发现方法

叙事生成方法研究综述

Large scale instance matching via multiple indexes and candidate selection

Query-dependent Cross Domain Ranking in Heterogenous Network.

一种基于社区结构的用户兴趣关联规则发现方法

A hybrid approach to outlier detection based on boundary region

Knowledge extraction from Chinese wiki encyclopedias

面向话题的新闻综述报告自动生成研究

<span>Efficient Task Scheduling for Many Task Computing with Resource Attribute Selection</

基于在线百科全书的群体兴趣及其关联性挖掘

A Unified Approach to Matching Semantic Data on the Web

从大规模术语词汇表中获取词汇的上下位关系

兼语语义类的分类研究

具有模态词□φ=□1φ∨□2φ且可靠与完备的公理系统

描述语义Web服务的带类型的OWL-S

基于CAS理论的群体协作维基词条编辑建模仿真

社会群体角色本体建模及其公理获取

基于语义的军事数据资源需求描述模型

基于演化涌现的复杂信息网络设计优化

基于拓扑势熵的维基百科词条编辑演化研究

基于本体和规则的扬弹机故障诊断研究

一种基于元路径的异质信息网络链路预测模型

一种基于因子图模型的半监督社区发现方法

Enhancing recommender systems by incorporatingsocial information

Learning Hierarchical Lexical Hyponymy

The Correspondence between the Concepts in Description Logics for Contexts and Formal Concept Analys

智能动画创作系统PNAI的研究进展

领域问答系统中的文本错误自动发现方法

具有模态词□φ=□1φ∨□2φ且可靠与完备的公理系统

概念空间中上下位关系的意义识别研究

不同逻辑间翻译的逻辑性质

描述语义Web服务的带类型的OWL-S

基于元性质的数量型属性值自动提取系统的实现

MUIS：一种新型的多领域信息共享联盟系统及其应用

逻辑之间的语义忠实语义满翻译

模糊商空间理论两个定理的补充

基于扩展命题模态逻辑的决策信息系统表示

基于属性取值域划分的关系数据获取

农村科技信息与科技专家共享联盟

基于边界和距离的离群点检测

领域问答系统中的文本错误自动发现方法

WordNet的中文翻译

叙事与动画智能实验平台PNAI的研究进展,

基于LOBA逻辑的言语行为表示.

基于混合特征的上下位关系验证方法

一种基于交替投影的脏数据处理方法

不同逻辑间翻译的逻辑性质

描述语义Web服务的带类型的OWL-S

MUIS：一种新型的多领域信息共享联盟系统及其应用

基于LOBA逻辑的言语行为表示

逻辑之间的语义忠实语义满翻译

基于一阶模态逻辑的模糊推理

低耗散且精确嵌入边界条件的流体模拟算法

国家知识基础设施中的数学知识表示

一种稳定、高效且保持细节的粘性流模拟算法

模糊商空间理论两个定理的补充

WNCT：一种WordNet概念自动翻译方法

面向知识处理的领域本体及其应用研究

一种交互式事件常识知识的获取方法

一种迭代式的概念属性名称自动获取方法

从Web中获取部分整体关系

基于并列结构的部分整体关系获取方法

领域问答系统中的文本错误自动发现方法

叙事生成方法研究综述

描述语义Web服务的带类型的OWL-S

机构性不礼貌话语积极语用功能探究——以电视综艺节目为例

期刊信息

《中文信息学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国中文信息学会中国科学院软件研究所
主编：孙茂松
地址：北京海淀中关村南四街4号中科院软件所
邮编：100190
邮箱：jcip@iscas.ac.cn
电话：010-62562916

国际标准刊号：ISSN：1003-0077
国内统一刊号：ISSN：11-2325/N
邮发代号:

获奖情况:

国内外数据库收录:
日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:9136