东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于DOM修剪的藏文Web信息提取

ISSN号：1000-3428
期刊名称：《计算机工程》
时间：0
分类：TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]西藏大学计算机科学与技术系,拉萨850000
相关基金：国家自然科学基金资助项目（60763010/F0206）

关键词：音节点, DOM树, 藏文, WEB信息提取, syllable dot, DOM tree, Tibetan, Web information extraction

中文摘要：

随着互联网的普及和藏文信息技术的不断发展，出现了大量的藏文网站。该文根据藏文“音节点”的特征识别藏文网页并进行抓取。在建立DOM树的基础上，分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实，该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。

英文摘要：

With the widespread use of Interuet and the development of Tibetan information technology, there are a lot of Websites of Tibetan information resource. This paper identifies Tibetan Web page and crawls it according to features of Tibetan syllable dot. Based on DOM, it analyzes relevance between linked and non-linked Web page text with topical information via pruning semantics algorithm to extract Tibetan topical information. Test result shows that the algorithm to identify and extract in the Tibetan Websites topical information has good adaptation.

同期刊论文项目

基于DOM树语义修剪的藏文Web信息提取算法研究

期刊论文 5 会议论文 1

同项目期刊论文

基于 DOM 修剪的藏文 Web 信息提取研究

藏文音节规则库的建立与应用分析

面向信息处理的藏文分词规范研究

藏文停用词选取与自动处理方法研究

期刊信息

《计算机工程》
北大核心期刊（2014版）

主管单位:中国电子科技集团公司
主办单位:华东计算技术研究所上海市计算机学会
主编：游小明
地址：上海市桂林路418号
邮编：200233
邮箱：ecice06@ecict.com.cn
电话：021-64846769

国际标准刊号：ISSN：1000-3428
国内统一刊号：ISSN：31-1289/TP
邮发代号:4-310

获奖情况:
1999～2000、2001～2002年度信息产业部优秀期刊奖,2003-2004、2005-2006年度信息产业部电子精品科技...,2007-2008、2009-2010年度工业和信息产业部电子精...,012年度中国科技论文在线优秀期刊一等奖,2013年度中国科技论文在线优秀期刊二等奖

国内外数据库收录:
俄罗斯文摘杂志,美国化学文摘（网络版）,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:84139