南京大学团队的博士生高辉以第一作者发表的关于”自动化软件可追踪性恢复”的研究成果《Propagating Frugal User Feedback Through Closeness of Code Dependencies to Improve IR-Based Traceability Recovery》被软件工程领域国际期刊Empirical Software Engineering 录用,该期刊属于中国计算机学会(CCF)推荐的B类期刊,近五年(截止2020)影响因子为3.126。本论文为前期已发表会议论文(ICPC 2019,国际程序理解大会)的特邀约稿。

软件可追踪性是指一种将软件系统内各类软件制品相互关联,并随系统变化对这些追踪线索进行维护的特性。长期的研究与实践表明,软件可追踪性能够极大地提升软件开发的正确性与效率。然而,当前主流的基于信息检索的自动化追踪技术普遍受到软件系统中”词汇表失配”问题的制约,即不同类型的软件制品处于不同的抽象层次(存在语义鸿沟),因此往往用不同的词汇来表达同一个概念。该问题极大地限制了软件可追踪性在实践中的应用。

为了解决这一问题,该工作创造性地引入并融合了两个额外的分析维度,即代码依赖紧密度分析与基于候选追踪列表的用户反馈。首先,该方法利用代码依赖动态分析工具捕获代码类之间的直接依赖与数据依赖,并通过两阶段划分的方法在代码依赖图上进行依赖紧密度分析并生成候选域。在此基础上,按照文本相似度值降序优先挑选各个候选域中的代表类交给用户判断。根据用户判断的结果,通过域中的类以及代码依赖对候选追踪列表的剩余候选追踪线索的文本相似度值进行调整。从而实现了仅使用少数的用户判断,便能较好的优化候选追踪列表提升精度。后续本小组将继续从代码和文本结构出发优化自动化可追踪技术。