位置:成果数据库 > 期刊 > 期刊详情页
基于simhash与倒排索引的复用代码快速溯源方法
  • ISSN号:1000-436X
  • 期刊名称:《通信学报》
  • 时间:0
  • 分类:TP393.08[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院计算技术研究所,北京100080, [2]中国科学院研究生院,北京100039, [3]中国科学院信息工程研究所,北京100093
  • 相关基金:国家自然科学基金资助项目(No.61303261);国家高技术研究发展计划(“863”计划)基金资助项目(No.2013AA014703,No.2012AA012803);国家242信息安全计划基金资助项目(No.2014A094):中国科学院战略性科技先导专项基金资助项目(No.XDA06030200)
中文摘要:

提出了一种新颖的复用代码精确快速溯源方法。该方法以函数为单位,基于simhash与倒排索引技术,能在海量代码中快速溯源相似函数。首先基于simhash利用海量样本构建具有三级倒排索引结构的代码库。对于待溯源函数,依据函数中代码块的simhash值快速发现相似代码块,继而倒排索引潜在相似函数,依据代码块跳转关系精确判定是否相似,并溯源至所在样本。实验结果表明,该方法在保证高准确率与召回率的前提下,基于代码库能快速识别样本中的编译器插入函数与复用函数。

英文摘要:

A novel method for fast and accurately tracing reused code was proposed. Based on simhash and inverted index, the method can fast trace similar functions in massive code. First of all, a code database with three-level inverted index structures was constructed. For the function to be traced, similar code blocks could be found quickly according to simhash value of the code block in the function code. Then the potential similar functions could be fast traced using inverted index. Finally, really similar functions could be identified by comparing jump relationships of similar code blocks. Further, malware samples containing similar functions could be traced. The experimental results show that the method can quickly identify the functions inserted by compilers and the reused functions based on the code database under the premise of high accuracy and recall rate.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《通信学报》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会
  • 主办单位:中国通信学会
  • 主编:杨义先
  • 地址:北京市丰台区成寿寺4路11号邮电出版大厦8层
  • 邮编:100078
  • 邮箱:
  • 电话:010-81055478 81055481
  • 国际标准刊号:ISSN:1000-436X
  • 国内统一刊号:ISSN:11-2102/TN
  • 邮发代号:2-676
  • 获奖情况:
  • 信息产业部通信科技期刊优秀期刊二等奖
  • 国内外数据库收录:
  • 荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:25019