东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于Web的语料自动采集技术研究

ISSN号：1007-9432
期刊名称：《太原理工大学学报》
时间：0
分类：TP274[自动化与计算机技术—控制科学与工程;自动化与计算机技术—检测技术与自动化装置]
作者机构：[1]太原理工大学计算机与软件学院中国电子科技集团第三十三研究所
相关基金：国家863计划资助项目(2006AA01Z142);; 国家社科基金资助项目(07CYY022)

作者：郭浩[1], 刘伟[1], 段富[1]

关键词：语料采集, 搜索引擎, 信息抽取, corpus Collection, search Engine, information extraction

中文摘要：

在为词典编撰进行大规模语料采集工作的背景下,以实现语料的批量自动采集为目的,介绍了基于Web的词典编撰语料自动采集技术。同时提出了该技术在图书信息领域的实验模型,图书信息搜寻系统(SearchBook v2.1.0)的设计与实现,包括如何利用搜索引擎技术及信息提取技术进行图书信息的搜索及提取。

英文摘要：

Under the aims at corpus automatic collection on the process of the large-scale Lexicography corpus collection,the paper described corpus collection technology which is based on Web.And then,the paper introduces the book information corpus tool,including how to make use of the technique of searching engine and information extraction in our system.

同期刊论文项目

汉语框架语义知识库的语义角色标注规则研究

期刊论文 10

　基于汉语框架语义知识库的搜索技术研究

期刊论文 13

同项目期刊论文

基于多词块的框架元素语义核心词自动识别研究

汉语框架语义角色的自动标注

基于依存特征的汉语框架语义角色自动标注

基于同义词词林信息特征的语义角色自动标注

汉语核心框架语义分析

多特征文本蕴涵识别研究

面向问题分类的汉语框架网特征选择

基于COSA算法的中文文本聚类

基于汉语框架网的旅游信息问答系统设计

基于汉语框架网的中文问题分类

汉语框架语义网构建及其应用技术研究

汉语框架语义知识库概述

条件随机场模型归一化因子的计算方法

基于最大熵模型的中文阅读理解问题回答技术研究

基于规则的中文阅读理解问题回答技术研究

基于汉语框架网的旅游信息问答系统设计

基于汉语框架网的中文问题分类

汉语框架语义网构建及其应用技术研究

汉语框架语义知识库非核心框架元素识别规则研究——以介词结构为例

中小企业高管教育背景与R＆D投资决策——基于深市上市公司的实证研究

中小企业盈利能力与R＆D投入关系实证研究——基于深市制造业上市公司的数据分析

期刊信息

《太原理工大学学报》
中国科技核心期刊

主管单位:山西省教育厅
主办单位:太原理工大学
主编：黄庆学
地址：太原市迎泽西大街79号
邮编：030024
邮箱：tyutxb@tyut.edu.cn
电话：0351-6014376 6014556

国际标准刊号：ISSN：1007-9432
国内统一刊号：ISSN：14-1220/N
邮发代号:22-27

获奖情况:
全国高校学报优秀期刊一等奖、二等奖,国家双效期刊奖,华北十佳期刊优秀奖,山西省一级期刊奖,中国期刊方阵“双效”期刊

国内外数据库收录:
美国化学文摘（网络版）,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）

被引量:9375