基于DOM树语义修剪的藏文Web信息提取算法研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于DOM树语义修剪的藏文Web信息提取算法研究

项目名称：基于DOM树语义修剪的藏文Web信息提取算法研究
项目类别：地区科学基金项目
批准号：60763010
申请代码：F0206
项目来源：国家自然科学基金
研究期限：2008-01-01-2008-12-31

项目负责人：珠杰
负责人职称：副教授
依托单位：西藏大学
批准年度：2007

中文摘要：

随着互联网的普及和藏文信息技术的不断发展，形成了大量的藏文网站。当前,藏文Web已成为人们获取藏文信息的主要渠道之一。为了使能够提供藏文网页的搜索引擎服务功能，在本项目中进行了藏文Web信息提取算法研究。首先根据藏文"音节点"的统计特征，通过建立和修剪DOM树，进行了藏文信息提取算法的研究；其次根据藏文语法和语义特征，进行了藏文分词的内容研究；最后研究了网页抓取过程中藏文网页的识别问题和编码转换问题。

中文主题词：藏文web信息提取；DOM树；音节点；藏文分词

结论摘要：

英文主题词Tibetan Web Information Extraction;DOM tree;Syllable Dot;Tibetan Segmentation

成果综合统计