位置:成果数据库 > 期刊 > 期刊详情页
基于文本布局块距离度量的文档图像检索
  • ISSN号:1007-7820
  • 期刊名称:《电子科技》
  • 时间:0
  • 分类:TN911.73[电子电信—通信与信息系统;电子电信—信息与通信工程] TP391.41[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:上海理工大学光电信息与计算机工程学院,上海200093
  • 相关基金:国家自然科学基金(61202376);上海市教育基金会晨光计划基金(10CG49)
中文摘要:

针对现有基于图像文档转换为文本后进行文档检索的方法,无法满足当今超大量数字图像库的处理场景。文中提出一种基于文本布局块的文档图像检索方法。根据文本布局块之间的距离特征,定义了新的距离函数,利用新的距离函数计算得到文本布局块之间的距离矩阵,并结合匈牙利算法求出文档图像的最佳匹配结果。通过大量实验证明,所提方法能够有效地提高图像文档检索准确度,并且能保证78.2%的正确率。

英文摘要:

The existing methods of document retrieval based on the conversion ot linage documents into text can not meet the processing scenes of today's large number of digital image databases. This paper proposes a document image retrieval method based on text layout block. According to the feature of distance between text blocks, a new distance function is defined. Then, the new distance function is used to calculate the distance matrix between text blocks. Finally, the best matching result is obtained by combining the Hungarian algorithm. A lot of experiments show that this method can effectively improve the image document retrieval accuracy, and can guarantee the correct rate of 78.2%.

同期刊论文项目
期刊论文 64 会议论文 3
同项目期刊论文
期刊信息
  • 《电子科技》
  • 主管单位:中华人民共和国教育部
  • 主办单位:西安电子科技大学
  • 主编:廖桂生
  • 地址:西安市太白南路2号375信箱
  • 邮编:710071
  • 邮箱:dzkj@mail.xidian.edu.cn
  • 电话:029-88202440
  • 国际标准刊号:ISSN:1007-7820
  • 国内统一刊号:ISSN:61-1291/TN
  • 邮发代号:52-246
  • 获奖情况:
  • 2007年省优秀期刊新闻出版总署首批出版规范A类期刊,工业和信息化部优秀编辑期刊,陕西省优秀期刊,2009-2010年度工业和信息化部期刊编辑质量优秀奖
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库
  • 被引量:7989