位置:成果数据库 > 期刊 > 期刊详情页
藏文网页抓取及编码统一转换的系统研究
  • ISSN号:1009-2102
  • 期刊名称:西北民族大学学报(自然科学版)
  • 时间:0
  • 页码:22-25
  • 语言:中文
  • 分类:TP393.02[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西北民族大学中国民族信息技术研究院,甘肃兰州730030
  • 相关基金:国家自然科学基金(60773052);国家教育部基金项目(MZ115-78)
  • 相关项目:基于语音、嗓音和呼吸信号的藏语拉萨话韵律模型研究
中文摘要:

藏文文本资源的收集对藏语信息处理研究有着至关重要的作用.文章在分析国内外藏文网页主要编码方式的基础上,提出了藏文网页的编码识别、自动获取与过滤,文本编码统一转换的算法.系统主要包括网页编码识别网页、自动获取、文本过滤、编码转换等几个模块.在windows平台下对系统的测试结果良好,为藏语电子文本的收集和整理提供了方便、快捷的平台.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《西北民族大学学报:自然科学版》
  • 主管单位:国家民族事务委员会
  • 主办单位:西北民族大学
  • 主编:何烨
  • 地址:甘肃兰州市西北新村1号
  • 邮编:730030
  • 邮箱:xmxb@chinajournal.nt.cn
  • 电话:0931-2938092
  • 国际标准刊号:ISSN:1009-2102
  • 国内统一刊号:ISSN:62-1188/N
  • 邮发代号:
  • 获奖情况:
  • 2000年被中国学术期刊(光盘版)编委会评为《CAJ...,2001年成为中文科技期刊数据库全文收录期刊
  • 国内外数据库收录:
  • 被引量:1936