位置:成果数据库 > 期刊 > 期刊详情页
利用信息检索和概率有限自动机的程序理解
  • ISSN号:1008-973X
  • 期刊名称:《浙江大学学报:工学版》
  • 时间:0
  • 分类:TP311.53[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]浙江大学计算机科学与技术学院,浙江杭州310027, [2]中国计量学院信息分院,浙江杭州310018, [3]上海理工大学计算机工程学院,上海200093
  • 相关基金:国家自然科学基金资助项曩(60573176);国家“973”重点基础研究发展规划资助项目(2007CB310900);浙江省重大科技专项资助项目(Z006C11208);国家发改委高技术产业化资助项目(发改办高技[Z006]7076号).
中文摘要:

为提高基于信息检索的程序理解方法的准确性,提出了一种结合信息检索和概率状态机的两阶段程序理解方法.在该方法中使用概率有限自动机(probabilistic finite-stateautomata,PFA)解决了信息检索结果在程序理解中的不确定性,同时采用信息检索构建了多个简单的PFA,而不是单个复杂的PFA,提高了PFA分析的伸缩性.训练阶段先采用隐式语义分析对源代码进行聚类,然后在聚类结果上生成PFA.在识别阶段以词法处理后的程序作为检索项在程序模板库中进行信息检索,取检索结果中的最相关的”项作为候选模板,由候选模板对应得到相应的PFA,通过分析找到最大概率的PFA,完成对源码内容的语义标注.

英文摘要:

To improve the accuracy of information retrieval (IR) based program comprehension method, a new two stages method was proposed, which consists of IR stage and probabilistic finite-state automata (PFA) recognition stage. This method uses, PFAs to address the problem of imprecise in applying IR in program comprehension directly. Meanwhile, applying IR makes it possible to construct many simple PFAs rather than a big complex one to greatly improve the scalability of recognition. PFAs are learned from clusters generated by latent semantic analysis (LSA) in training state. In recognition state, source code segment is processed in lexical, and then it is used as an IR query to retrieve n candidate plans. After that, the corresponding PFAs of the plans are found, and the PFA with maximum probability is chosen. Finally, the code segment is marked with the same semantic as the result PFA.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《浙江大学学报:工学版》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:浙江大学
  • 主编:岑可法
  • 地址:杭州市浙大路38号
  • 邮编:310027
  • 邮箱:xbgkb@zju.edu.cn
  • 电话:0571-87952273
  • 国际标准刊号:ISSN:1008-973X
  • 国内统一刊号:ISSN:33-1245/T
  • 邮发代号:32-40
  • 获奖情况:
  • 2000年获浙江省科技期刊质量评比二等奖,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:21198