东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

异源语料融合研究

ISSN号：1003-0077
期刊名称：《中文信息学报》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101, [2]清华信息科学与技术国家实验室(筹),清华大学信息技术研究院语音与语言技术中心,北京100084
相关基金：国家自然科学基金（61271304,61671070）; 北京成像技术高精尖创新中心项目（BAICIT-2016003）; 国家社会科学基金（14@ZH036）

作者：吕学强[1], 仵永栩[1,2], 周强[2], 刘殷[1,2]

关键词：语料建设, 语料融合, 词类映射, 词性消歧, corpus .construction, data fusion, word mapping , POS disambiguation

中文摘要：

语料资源与自然语言处理领域的各项研究息息相关,具有很大的应用价值。由于不同的研究机构对于语料标注的规则和标记的类型不尽相同,使得不同的语料库很难组合为一个更大的语料库来进行使用。针对该问题,该文从不同标注库及词类映射层面考虑,对其产生的词性歧义问题进行了研究,提出了一种将异源语料融合到一种体系下的方法,对词类信息进行映射和消歧,并进行了实验验证,融合后的词性信息准确率可达87%,实验结果表明该方法具有一定的有效性和可扩展性。

英文摘要：

Corpus resources are closely related to Natural Language Processing. However, different research institutions have different rules and tags when constructing the copus, which prevents a unified big corpus. This paper investigates the different annotation scheme and presents a method for heterogeneous corpus integration. The experiments on part-of -speech mapping and and disambiguation indicate anaccuracy of 87 % after the integration, showing the validness of this method.

同期刊论文项目

基于本体的专利自动标引研究

期刊论文 32

　建筑用反射隔热涂料

期刊论文 67

中文专利侵权自动检测研究

期刊论文 3

同项目期刊论文

本体概念间上下位关系抽取研究

基于词典与机器学习的中文微博情感分析研究

Logistic视频字幕增强模型

汉语概念复合块的自动分析

基于释义扩展的术语归类研究

KNN和SVM并行结合的算法

基于语义与最大匹配度的短文本分类研究

中文专利领域本体概念间非分类关系抽取

基于动态纹理基元的外观设计专利检索

基于显著点切片的三维模型检索

专利文献中关键词抽取方法的改进

基于快速鲁棒特征集合统计特征的图像分类方法

基于查询热度和实体识别的查询推荐

基于边界点描述符的三维模型检索研究＂

多封闭区间三维模型的骨架提取与检索

微博谣言识别研究

金融领域的事件句抽取

面向短文本的情感折射模型

金融领域的事件句抽取

农田覆膜效益、环境影响与监测研究进展分析

硫色烯并噻唑胺类衍生物对乙酰胆碱酯酶抑制活性的QSAR模型

金融领域的事件句抽取

基于核磁共振1H谱的2型糖尿病肾病分时期尿液代谢组学研究

基于耦合协调度模型的南京市用水效率与经济发展关系

7个猪品种IBSP基因结构变异SV13的群体分析

基于双重目标的东北粮食主产区土地适度规模经营研究

太阳能光立方的设计与制作

光电传感导盲机器人的设计与制作

基于高校网站内容的实体抽取研究

等温化学气相渗透法制备C/C-SiC复合材料的摩擦磨损性能

气氛保护等离子喷涂成形W/Re合金喷管的抗热震烧蚀性能研究

高品质钼靶材低压等离子喷涂成形技术研究

云南省嵩明竹子科技园的建立

“互联网+时代”高职设计教育服务新农村建设文创产业的意义与实践

浅析媒介融合时代纸媒转型挑战——以《纽约时报》、《卫报》为例

相机而问,入乎其内——以《祝福》为例谈优化小说教学的有效路径

江苏省含低放射性废渣清洁解控技术规范探讨

江湖镜像下的人文诉求——新世纪中国武侠电影的发展趋势

南洋楹组培快繁技术优化研究

基于视频的带电作业中组合间隙的智能检测

情报机构向智库转型发展的契合关系研究

江苏省沿江排涝设计潮位和潮型研究

不确定性情境下竞争情报价值认知与价值生成研究

松嫩高平原土地利用类型变化特征及时空格局研究

价值链视阈下应用型财会人才培养模式研究

长链非编码RNADANCR促进滑膜间充质干细胞向软骨细胞的

我国医疗市场医师过度医疗行为约束机制的博弈分析

总体性视角下的“四个全面”战略布局研究

《内经》理论对叶天士论治中风的影响

媒体融合内容库的设计与应用

基于重叠度与模块度增量的复杂网络社区识别

基于两层阈值的话题/报道表示模型

基于微博转发集的微博过滤研究

机械设计图像检索研究

基于外观设计专利的多模态图像检索

机械设计图像主轮廓提取算法研究

Lucene全文索引效率的改进

查询日志中查询意图的自动识别

搜索日志中热点查询的内容抽取

领域本体术语的抽取方法研究

专利领域本体概念语义层次获取

微博城市投诉文本中的地理位置实体识别

机械设计图像几何特征组合检索研究

广告型微博的识别方法

“地质学基础”课程绪论课的教学内容与教学目标

论“华莱坞”类型电影的跨文化传播困境及应对策略

生鲜乳中金黄色葡萄球菌检测及性状分析

网络媒体在构建和谐医患关系中的责任

城市道路护栏清洗车避障机构的研究

城市快速路车辆自由换道行为特征研究

协调推进“四个全面”战略布局的方法论研究

物联网海量数据存储系统研究

槟榔鞣质水解的优化条件研究

《高等材料化学》之课程建设特色探讨

圆明亮型钻石闪烁的定量评价方法研究

对氟苯基三唑并嘧啶衍生物抑菌活性的拓扑研究

“四个全面”战略布局历史地位的“四个关系维度”

基于ACIS的悬索桥工程BIM建模研究

以目标为导向的住院医师规范化培训新方法

定量分析钻石火彩方法的可行性研究

长链非编码RNA DANCR在关节软骨损伤修复中作用机制的研究进展

文化在社会转型中的核心地位

创新衡水农业合作社经营模式助推绿色产业精准扶贫

回族武术文化对沧州“好人之城”建设的助推作用

三唑噻吩嘧啶衍生物杀菌活性的理论研究

甘肃省经济增长与能源碳排放关系研究-基于Tapio脱钩模型

（Ba1-yCey）（Ti1-x-y/4Cex）O3陶瓷的介电性能

如何利用现场校准减少大型医用电气设备现场EMC测试的误差

新世纪中国武侠电影的发展趋势

氧气在非金属原子共修饰石墨烯表面的吸附特性

我国融资租赁业务的财税问题探究

Anisotropic adaptive finite element method for magnetohy- drodynamic flow at high Hartmann numbers

国际竹类栽培品种登录的理论与实践

一株野鸟源H3N2亚型禽流感病毒HA基因序列分析

京津冀一体化视阈下保定高校大学生“工匠精神”培养路径

改良Rex手术治疗小儿肝外门静脉高压的疗效及最佳方法探讨

职业岗位视角下高职学前教育专业公共英语教学模式探究

论心物、知行关系的现实转换

基于“六步四结合”的高职英语课程教学改革探讨——以三门峡职业技术学院学前教育专业为例

期刊信息

《中文信息学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国中文信息学会中国科学院软件研究所
主编：孙茂松
地址：北京海淀中关村南四街4号中科院软件所
邮编：100190
邮箱：jcip@iscas.ac.cn
电话：010-62562916

国际标准刊号：ISSN：1003-0077
国内统一刊号：ISSN：11-2325/N
邮发代号:

获奖情况:

国内外数据库收录:
日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:9136