位置:成果数据库 > 期刊 > 期刊详情页
基于代码模式的软件问答文档检索优化方法
  • ISSN号:1673-9418
  • 期刊名称:《计算机科学与探索》
  • 时间:0
  • 分类:TP301[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京大学信息科学技术学院,北京100871, [2]高可信软件技术教育部重点实验室,北京100871, [3]北京大学(天津滨海)新一代信息技术研究院,天津300450
  • 相关基金:The National Key Research and Development Program of China under Grant No. 2016YFB1000804 (国家重点研发计划); the NationalScience Fund for Distinguished Young Scholars of China under Grant No. 61525201 (国家杰出青年科学基金).
中文摘要:

开发人员通常通过问答网站的搜索引擎进行相关软件问答文档的搜索。在检索结果中,包含优质代码片段(使用示例)的问答文档往往更受青睐,但如何度量这些文档中代码片段的质量仍是个巨大的挑战。针对这个问题,提出了一种基于代码模式的软件问答文档检索优化方法。该方法能够基于当前检索结果,抽取文档中的代码片段,分析代码片段中的公共代码模式,并基于代码模式度量文档中代码片段的质量,从原有检索结果中向用户推荐高质量的软件问答文档。以软件开发人员在实践过程中遇到的真实问题为基础进行了实验,对比StackOverflow的搜索结果,所提方法在准确率指标NDCG@5上提升了40%。

英文摘要:

Developers often need to search related software Q&A documents in Q&A website.In the search results,the Q&A documents which contain good code snippets(usage examples)are preferred.However,how to metric those code snippets in document is still a big challenge.To address this issue,this paper proposes an approach for refining software Q&A document search results based on code pattern.Firstly,code snippets are extracted from each document in the search results.Then,the common code patterns are mined and used to measure the quality of those code snippets.Finally,the documents with high quality are recommended and ranked at the top of the search results.In the experiments,this paper carries out some evaluations with10real problems that software developers meet in practice.Compared to the search results of StackOverflow,the proposed approach has an increment of40%at NDCG@5.

同期刊论文项目
期刊论文 2
同项目期刊论文
期刊信息
  • 《计算机科学与探索》
  • 中国科技核心期刊
  • 主管单位:中国电子科技集团公司
  • 主办单位:华北计算技术研究所
  • 主编:李建中
  • 地址:北京市619信箱26分箱海淀区北四环中路211号
  • 邮编:100083
  • 邮箱:fcst@vip.163.com
  • 电话:010-51616056
  • 国际标准刊号:ISSN:1673-9418
  • 国内统一刊号:ISSN:11-5602/TP
  • 邮发代号:82-560
  • 获奖情况:
  • 工业和信息化部优秀科技期刊,中国计算机学会优秀会刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2014版)
  • 被引量:1928