构建高质量重构数据集, 提升坏味道智能检测有效性的必经之路-摩杜云开发者社区

基于AI技术实现架构坏味道检测与重构建议是当前业界比较流行的做法，但此做法往往存在一个通病，即训练数据集的质量问题，如何构建大规模、高质量的训练数据成为制约算法有效性的关键挑战。针对这项挑战，我们以Feature envy架构坏味道为例，利用一系列启发式规则和一个基于决策树的分类器，实现了一种基于真实数据的高质量重构数据集构造方法，并利用此方法构建的数据集将Feature envy架构坏味道的检测与重构准确率提升到业界SOTA水平。此工作由北京理工大学刘辉教授团队和华为云技术创新Lab合作完成，相应产出已落地至华为公司内部研发工具，研究成果已被软件工程领域顶会ESEC/FSE 2023（CCF A类）正式收录，详细内容已经公开，欢迎查阅。

构建高质量重构数据集, 提升坏味道智能检测有效性的必经之路_启发式规则

构建高质量重构数据集, 提升坏味道智能检测有效性的必经之路_真实世界_02

图1 Feature envy检测方法概览

一、如何获得真实世界的移动方法重构数据集

我们通过一系列启发式规则和一个基于决策树的分类器来自动过滤现有的重构检测工具的误报。如果移动方法重构的源类在新版本中不存在或者目标类在旧版本中不存在，我们过滤这样的重构，因为它们通常是与其它重构紧密相关的，例如提取类重构。其次我们也过滤掉重写方法，测试方法，以及构造函数，因为测试方法与生产代码无关，其目的是为了测试生产代码中某个方法是否符合开发者的预期。而重写方法和构造函数通常不能被移动由于其编程特性。我们也利用了一个决策树分类器来进一步过滤简单的启发式规则无法解决的情况。由于移动方法通常会涉及调用关系的迁徙，因此我们分别提取移动方法在两个版本上的调用关系以及它们的语句匹配关系作为决策树的特征。通过这两步过滤，使开发者可以在大量提交中自动挖掘移动方法重构，降低其误报的存在。

二、如何实现Feature envy的智能检测与重构

通过在大量的项目和提交上挖掘移动方法重构，并应用我们的误报过滤方法，我们可以自动地收集真实世界中由开发者所执行的大量且高质量的移动方法重构示例。为了训练一个Feature envy检测模型，我们也在相同的项目中随机地等比例采样了未移动的方法作为训练数据集中的负样本。我们的模型输入包括文本度量和结构度量两部分。其中文本度量由移动方法名，源类名，和目标类名三方面组成。结构度量包含移动方法分别和源类以及目标类之间的Jaccard距离（dist），与源类和目标类中的方法的调用次数（mcmc），以及与源类和目标类中的方法的调用个数（cbmc）。基于训练好的模型，我们可以检测真实世界中的项目是否存在Feature envy方法。并为其提供解决方案。对于待检测的方法，我们也提出了一系列启发式规则来降低误报的可能性。包括数据类和工具类的过滤等。这样的类通常是为了向外部提供数据访问和操作。因此它们会被外部的方法频繁访问但访问此类的方法并不应该被移动到这样的类中。

构建高质量重构数据集, 提升坏味道智能检测有效性的必经之路_真实世界_03

图2 Feature envy模型

三、方法效果评估

构建高质量重构数据集, 提升坏味道智能检测有效性的必经之路_数据集_04

表1 评估结果

我们选择了当前最先进的基于深度学习的方法（feDeep）以及知名的基于启发式的方法（JDeodorant和JMove）。我们的方法在5个真实世界的项目上与这些方法相比，针对Feature envy检测的准确性有明显的提升。我们由此推断出利用真实世界代码训练出的模型在实际检测的过程中具备更好的表现。另外，所提出的方法在重构推荐上相比于现有的基于深度学习的方法也有明显的提升。

PaaS 技术创新 Lab隶属于华为云，致力于综合利用软件分析、数据挖掘、机器学习等技术，为软件研发人员提供下一代智能研发工具服务的核心引擎和智慧大脑。我们将聚焦软件工程领域硬核能力，不断构筑研发利器，持续交付高价值商业特性！加入我们，一起开创研发新“境界”！

详情欢迎联系: mayuchi1@huawei.com;bianpan@huawei.com