如何将先验知识嵌入机器学习?《知信机器学习Informed ML》19页论文综述IML概念、分类和方法
  IwAQx7pW1xBE 2023年11月02日 42 0

重要福利:原文下载地址,点击这里获取。

如何将先验知识嵌入机器学习?《知信机器学习Informed ML》19页论文综述IML概念、分类和方法_知识表示

摘要

尽管机器学习取得了巨大的成功,但在训练数据不足时,也有其局限性。一个潜在的解决方案是将先验知识额外集成到训练过程中,这导致了知信机器学习(Informed Machine Learning )的概念。在这篇论文中,我们提供了该领域各种方法的一个结构化概述。我们提供了一个定义并提出了一个知信机器学习的概念,说明了它的构建模块,并将其与传统机器学习区分开来。我们引入了一个分类框架,对知信机器学习方法进行归类。它考虑了知识的来源、它的表示以及它与机器学习管道的集成。基于这种分类框架,我们综述了相关的研究,并描述了不同的知识表示,如代数方程,逻辑规则,或模拟结果,如何在学习系统中使用。在分类框架的基础上对众多论文进行评估,揭示了知情机器学习领域的关键方法。

1. 引言

从计算机视觉[1]、语音识别[2]、文本理解[3]到游戏AI[4],机器学习在构建模式识别模型方面取得了巨大的成功。除了这些经典领域,机器学习尤其是深度学习在工程和科学领域也越来越重要和成功[5],[6],[7]。这些成功的故事是基于从大量例子中学习的数据驱动方法的本质。

然而,在许多情况下,纯数据驱动的方法可能会达到极限或难以达到令人满意的结果。最常见的场景是,没有足够的数据来训练性能良好和具有良好泛化能力的模型。另一个重要的方面是,纯数据驱动的模型可能不满足自然法则或监管或安全准则等约束条件,这些对值得信赖的AI[8]很重要。随着机器学习模型变得越来越复杂,对模型可解释性[9]的需求也越来越大。

这些问题导致了对如何通过将先验知识附加到学习过程中来改进机器学习模型的研究增加。虽然将知识集成到机器学习中很常见,例如通过标签或特征工程,但我们观察到,人们对集成更多知识,特别是进一步的形式化知识表示越来越感兴趣。例如,在损失函数中加入逻辑规则[10],[11]或代数方程[12],[13]作为约束。知识图谱可以利用实例之间的关系信息[14]增强神经网络,这对图像分类[15],[16]很有意义。此外,利用物理模拟来丰富训练数据[17],[18],[19]。这种方法上的异质性导致了命名方法上的冗余;例如,我们发现诸如物理信息深度学习[20]、物理引导神经网络[12]或基于语义的正则化[21]等术语。最近研究活动的增长表明,数据驱动和知识驱动方法的结合在越来越多的领域变得相关。这一领域的研究论文越来越多,种类越来越多,促进了本论文的系统性综述工作。

最近的一项综述将此统称为理论指导的数据科学的新范式,并指出在机器学习[22]中加强科学一致性的重要性。即使对于支持向量机,也存在一个关于将知识整合到这种形式[23]中的综述。符号主义和连接主义AI的融合似乎越来越平易近人。在这方面,我们参考了最近关于图神经网络的一项综述,并将研究方向框定为关系归纳偏差[24]。我们的工作通过提供集成到机器学习中的知识表示的系统分类来补充上述综述。基于对大量关于如何将额外的先验知识集成到机器学习管道的研究论文的综述,我们提供了一个结构化的概述。作为这类方法的总称,提出了知信机器学习的概念。

我们的贡献有三个方面:我们提出了一个知信机器学习的抽象概念,阐述了其构建模块和传统机器学习的关系。它指出,知信学习使用由数据和先验知识组成的混合信息源,先验知识来自于一个独立信息源,并由正式表示给出。我们的主要贡献是引入了一种分类框架,对知信机器学习方法进行分类,这是新颖的,也是同类中的第一个。它包含了知识来源的维度,表示,以及它与机器学习管道的集成。我们特别强调对各种知识表示进行分类,因为这可能使从业者将他们的领域知识纳入机器学习过程。此外,我们提出了可用方法的描述,并解释了不同的知识表示,如代数方程,逻辑规则,或模拟结果,如何在知信机器学习中使用。

我们的目标是用成熟和成功的方法装备潜在的机器学习新用户。由于我们打算调查这一领域的广泛的方法,我们不能描述所有系统的细节,我们也不声称已经涵盖了所有可用的研究论文。我们的目的是分析和描述共同点以及方法的多样性,以确定知信机器学习的主要研究方向。

在第2节中,我们开始制定知信机器学习的概念。在第三节中,我们描述了如何根据我们应用的调查方法和我们获得的关键见解对这些方法进行分类。第4节提出了分类框架和它的元素,我们从调查大量的研究论文中提炼。在第5节中,我们描述了将知识集成到机器学习的方法,根据分类法进行了更详细的分类。在第6节简要介绍了历史之后,我们最后在第7节讨论了未来的方向,并在第8节总结。

2. 知信机器学习

在本节中,我们提出了知信机器学习的概念。我们首先陈述了知识的概念,然后给出了将其整合到机器学习中的描述性定义。

2.1 Knowledge

一般来说,“知识”这一概念很难定义,是一个持续的哲学辩题。在知识生成的过程中,它首先以有用信息[28]的形式出现,随后被验证。人们通过大脑内部的统计处理能力[29]、[30]或咨询可信的权威来验证世界信息。实证研究或科学实验[27],[31]给出了明确的验证形式。

在这里,我们假设一个计算机科学的视角,并将知识理解为关于特定上下文中实体之间关系的已被验证的信息。关于其在机器学习中的使用,知识的一个重要方面是其形式化。形式化的程度取决于知识是否被投入到写作中,写作的结构如何,以及使用的语言有多正式和严格(例如,自然语言vs.数学公式)。知识表示得越正式,就越容易集成到机器学习中。

2.2 Integrating Prior Knowledge into Machine Learning

除了机器学习管道中常见的信息源——训练数据之外,还可以另外整合知识。如果这个知识是预先存在的,并且不依赖于学习算法,就可以称之为先验知识。此外,这种先验知识可以通过形式化表示来给出,形式化表示以一种外部的、与学习问题和通常的训练数据分离的方式存在。明确整合这些知识表示的机器学习今后将被称为知信机器学习。

定义。知信机器学习描述从混合信息源进行学习,信息源由数据和先验知识组成。先验知识来自于一个独立信息源,由形式化表示给出,并明确地集成到机器学习管道中。

这种知信机器学习的概念描述了图1中的信息流,与传统的机器学习不同。

如何将先验知识嵌入机器学习?《知信机器学习Informed ML》19页论文综述IML概念、分类和方法_数据_02

图1:知信机器学习中的信息流。知信机器学习管道需要一个混合信息源,包含两个部分:数据和先验知识。在传统机器学习中,知识被用于数据预处理和特征工程,知识与学习管道(*)深深交织在一起。相反,在知信机器学习中,先验知识来自一个独立的来源,通过形式化表示(例如,通过知识图、仿真结果或逻辑规则)给出,并显式集成。

2.2.1 Conventional Machine Learning

传统机器学习从有训练数据的特定问题开始。这些数据被输入机器学习管道,从而提供解决方案。问题通常可以表述为回归任务,其中输入X必须映射到输出y。生成或收集训练数据,然后由算法处理,算法试图逼近未知映射。该管道由四个主要部分组成,分别是训练数据、假设集、学习算法和最终的假设[32]。

在传统的方法中,知识通常用于学习管道,然而,主要用于训练数据预处理(如标签)或特征工程。这种集成与整个学习管道(如假设集的选择或学习算法)密切相关,并深深交织在一起,如图1所示。因此,这些知识并不是作为一个独立的来源或通过分离的表示来使用,而是根据需要进行调整使用。

2.2.2 Informed Machine Learning

知信机器学习的信息流包含一个额外的先验知识集成,因此由源自问题的两条线组成,如图1所示。这包括通常的训练数据和额外的先验知识。后者独立于学习任务存在,可以以逻辑规则、仿真结果、知识图谱等形式提供。

知信机器学习的本质是,这些先验知识明确地集成到机器学习管道中,理想情况下是通过知识表示定义的清晰接口。理论上,这适用于机器学习管道的四个组成部分。

3 CLASSIFICATION OF APPROACHES

为了理解知信机器学习的概念是如何实现的,我们在广泛的文献调查的基础上对现有的方法进行了系统的分类。我们的目标是发现不同的方法,识别它们的相似或不同,并为用户和研究人员提供指导。在本节中,我们将描述我们的分类方法并总结我们的关键见解。


3.1 Methodology

我们的分类方法是由我们在系统的文献调查中调查的具体分析问题决定的。

3.1.1 Analysis Questions

我们的主导问题是如何将先验知识集成到机器学习管道中。我们的答案将特别关注三个方面:由于知情机器学习中的先验知识由一个独立的来源组成,需要某种形式的明确表示,我们考虑知识来源和表示。由于机器学习管道的哪个部分集成什么样的知识也是至关重要的,我们也考虑集成方法。简而言之,我们的文献调查涉及以下三个问题:

1) Source: Which source of knowledge is integrated?

2) Representation: How is the knowledge represented?

3) Integration: Where in the learning pipeline is it integrated?

3.1.2 Literature Surveying Procedure

为了系统地回答上述分析问题,我们调查了大量描述知情机器学习方法的出版物。我们使用了由不同周期组成的比较和迭代测量程序。在第一个周期,我们检查了最初的一组论文,并记录下每一篇论文如何回答我们的问题。在这里,我们观察到经常出现特定的答案,这导致了以分类法的形式设计分类框架的想法。在第二个周期中,我们检查了一组扩展的论文,并根据分类法的第一稿对它们进行分类。然后,我们进一步完善了分类,以匹配从文献观察。在第三个循环中,我们重新检查和整理论文,进一步扩大我们的论文集合。这导致了一个广泛的文献基础,其中所有的论文根据蒸馏分类法分类。


3.2 Key Insights

接下来,我们将对系统分类的关键见解进行概述。作为预览,我们参考图2,它直观地总结了我们的发现。我们的发现的更详细的描述将在第4和第5节中给出。

如何将先验知识嵌入机器学习?《知信机器学习Informed ML》19页论文综述IML概念、分类和方法_数据_03

图2:知情机器学习的分类。该分类法为知信机器学习提供了一个分类框架,并根据上述关于知识来源、知识表示和知识集成的三个分析问题构建了方法。基于比较和迭代的文献调查,我们为每个维度确定了一组代表不同方法光谱的元素。元素的大小反映了论文的相对数量。我们将分类法与桑基图相结合,在桑基图中,路径连接了三个维度上的元素,并说明了我们在分析的论文中发现的方法。道路越宽广,我们就会发现更多关于这种方法的论文。主要路径(至少四篇或更多在所有维度上采用相同方法的论文)用深灰色标出,代表了知情机器学习的核心方法。


3.2.1 Taxonomy

基于比较和迭代的文献调查,我们确定了一个分类,我们提出了一个分类框架的机器学习方法。在上述分析问题的指导下,分类法由知识来源、知识表示和知识集成三个维度组成。每个维度包含一组元素,代表文献中发现的不同方法的光谱。图2中的分类法说明了这一点。

在知识来源方面,我们发现了三大类:较为专业化和形式化的科学知识、日常生活中的常识性知识和较为直观的专家知识。对于科学知识,我们找到了最有见地的机器学习论文。在知识表示方面,我们找到了通用的和细粒度的方法,并提炼了8类(代数方程、微分方程、模拟结果、空间不变性、逻辑规则、知识图谱、概率关系和人类反馈)。关于知识集成,我们找到了机器学习管道从训练数据和假设集到学习算法到最终假设的所有阶段的方法。然而,大多数关于机器学习的论文都考虑了两个主要阶段。

根据不同的角度,可以从两个方面来看待分类法:面向应用程序的用户可能喜欢从左到右阅读分类法,从某个给定的知识源开始,然后选择表示和集成。反之,面向方法的开发人员或研究人员可能更喜欢从右到左阅读分类法,从某个给定的集成方法开始。对于这两种观点,知识表示都是重要的构建模块,并构成了连接面向应用程序和面向方法端的抽象接口。


3.2.2 Frequent Approaches

分类法作为一个分类框架,让我们能够识别频繁的机器学习方法。在我们的文献调查中,我们根据三个分类维度对每一篇研究论文进行了分类。

通过分类法的路径。当可视化地突出显示并连接它们时,跨分类法维度的条目的特定组合会形象地产生一条贯穿分类法的路径。这样的路径代表了实现知情学习的特定方法,我们通过将分类法与桑基图相结合来说明这一点,如图2所示。我们观察到,虽然分类法中有各种不同的路径,但特定的路径出现得更频繁,我们将其称为主要路径。例如,我们经常观察到这样一种方法,即科学知识用代数方程表示,然后将代数方程集成到学习算法中,如损失函数。另一个例子是,我们经常发现世界知识,比如语言学,是用逻辑规则表示的,然后把逻辑规则集成到假设集中,比如网络架构。这些路径,特别是主要路径,可以作为该领域新用户的指南,或为研究人员提供一套基线方法。

从源到表示的路径。我们发现从源到表示的路径形成了组。也就是说,每一种知识来源都有普遍的表示类型。科学知识主要以代数或微分方程的形式表示或以模拟结果的形式存在。虽然其他形式的表示也有可能,但有一个明显的偏好方程或模拟,可能是因为大多数科学的目标是找到编码在公式中的自然法则。对于世界知识,逻辑规则、知识图谱或空间不变性的表示形式是最主要的。这些可以被理解为一组符号表征。专家知识主要用概率关系或人的反馈来表示。这似乎是合理的,因为这种表示允许非正式性和一定程度的不确定性,这两者都可能对表示直觉有用。我们还对学习任务的依赖性进行了额外的分析,并发现了上述表示组的确认,如图3所示。

如何将先验知识嵌入机器学习?《知信机器学习Informed ML》19页论文综述IML概念、分类和方法_数据_04


从理论的角度来看,表征之间的转换是可能的,并且在前面提到的分组中经常出现。例如,方程可以转换为仿真结果,或者逻辑规则可以表示为知识图谱,反之亦然。然而,从实际的角度来看,区分表示形式似乎是有用的,因为特定的表示可能已经在给定的设置中可用。

从表示到集成的路径。对于大多数表示类型,我们发现至少有一条通向集成类型的主要路径。可以观察到以下映射。仿真结果经常被整合到训练数据中。知识图谱、空间不变性和逻辑规则经常被纳入假设集。学习算法主要通过代数或微分方程、逻辑规则、概率关系或人类反馈来增强。最后,通过知识图谱或仿真结果来验证最终假设。然而,由于我们观察到所有表示类型的各种可能的集成类型,集成仍然看起来是特定于问题的。

因此,为了了解先验知识整合的目标,我们额外分析了文献,发现了四个主要目标:数据效率、准确性、可解释性或知识一致性。虽然根据统计学习理论,这些目标是相互关联的,甚至部分相同的,但将它们作为所选择的方法的不同动机来研究是很有趣的。不同集成类型的目标分布如图4所示。我们观察到,主要目标总是为了获得更好的性能。将先验知识集成到训练数据中是很突出的,因为它的主要目标是用更少的数据进行训练。与最终假设的整合也是特殊的,因为它主要用于确保安全可信的AI的知识整合。总而言之,该发行版根据目标提供了合适的集成方法。


如何将先验知识嵌入机器学习?《知信机器学习Informed ML》19页论文综述IML概念、分类和方法_知识表示_05


4 TAXONOMY

在本节中,我们描述了在我们的文献调查中作为分类框架提炼出来的知信机器学习分类法。对于知识来源、知识表示和知识集成这三个分类维度中的每个维度,我们都描述了所发现的元素,如图2所示。虽然下一节(第5节)将介绍根据这种分类法进行广泛分类的方法和更多具体示例,但我们在这里从更概念化的层次上描述分类法。

4.1 Knowledge Source

类别知识源是指机器学习中要集成的先验知识的来源。我们观察到,先验知识的来源可以是一个既定的知识领域,也可以是来自具有各自经验的个人群体的知识。

我们发现先验知识通常来源于科学,或者是一种常识或专家知识的形式,如图2左侧所示。这个列表既不完整也不脱节,而是展示了一个从更正式到更不正式,或显式到隐式验证知识的光谱。尽管特定的知识可以分配给多个来源,但这种分类的目标是在我们的分类中确定描述知识集成到机器学习的频繁方法的路径。在下面的文章中,我们将简要地描述每一个知识来源。

科学知识。我们把科学、技术、工程和数学归入科学知识的范畴。这种知识通常是通过科学实验形式化和明确验证的。例如物理的普遍规律,生物分子对遗传序列的描述,或物质形成的生产过程。

世界的知识。我们所说的世界知识是指日常生活中几乎每个人都知道的事实,因此也可以被称为常识。它可以比较正式,也可以比较不正式。一般来说,它可以是直观的,并通过人类对周围世界的推理含蓄地验证。因此,世界知识通常描述出现在人类感知世界中的物体或概念之间的关系。例如,鸟有羽毛,会飞。此外,通过世界知识,我们也将语言学纳入其中。这些知识也可以通过实证研究得到明确的验证。例如语言的语法和语义。

专家知识。我们认为专家知识是由特定的专家群体所掌握的知识。在专家群体中,它也可以被称为常识。这样的知识是相当非正式的,需要形式化,例如,人机界面。它也含蓄地通过一组经验丰富的专家进行验证。在认知科学的语境下,这种专家知识也可以成为直观的[29]。例如,一名工程师或一名医生通过在某一特定领域工作数年的经验获得知识。

4.2 Knowledge Representation

类别知识表示描述了知识的形式化表示方式。对于图1中知信机器学习中的信息流,它直接对应我们的先验知识的关键元素。这个类别构成了我们分类法的核心构件,因为它决定了机器学习管道的潜在接口。

在我们的文献调查中,我们经常遇到某些表示类型,如图2中的分类法所示,表1更具体地说明了这一点。我们的目标是为机器学习方法提供一个分类框架,包括使用的知识表示类型。虽然某些类型可以在数学上相互转换,但我们保留了与综述文献中最接近的表示。在这里,我们首先从概念上概述这些类型。

如何将先验知识嵌入机器学习?《知信机器学习Informed ML》19页论文综述IML概念、分类和方法_机器学习_06

代数方程。代数方程用由变量或常数组成的数学表达式之间的相等或不等关系来表示知识。方程可以用来描述一般函数或约束变量到一个可行集,因此有时也被称为代数约束。表1中突出的例子是质能等价方程和真空中没有任何物体的速度能超过光速的不等式。

微分方程。微分方程是代数方程的一个子集,它描述函数与其空间或时间导数之间的关系。表1中两个著名的例子是热方程,它是偏微分方程(PDE),和牛顿第二定律,它是常微分方程(ODE)。在这两种情况下,存在一组(可能是空的)函数来解给定的初始或边界条件的微分方程。微分方程通常是计算机数值模拟的基础。我们区分微分方程和模拟结果的分类类别,前者代表一个紧凑的数学模型,后者代表展开的、基于数据的计算结果。

仿真结果。模拟结果描述了计算机模拟的数值结果,这是对真实世界过程行为的近似模仿。仿真引擎通常使用数值方法解决数学模型,并产生特定情况参数的结果。它的数值结果是我们在这里描述的模拟结果作为最终的知识表示。例如模拟流体的流场或模拟交通场景的图片。

空间不变性。空间不变性描述的是在平移和旋转等数学变换下不会改变的性质。如果一个几何物体在这种变换下是不变的,它就具有对称性(例如,一个旋转对称的三角形)。一个函数可以被称为不变的,如果它的参数的对称变换有相同的结果。与不变性相联系的是等方差的性质。

逻辑规则。逻辑提供了一种关于事实和相关性的形式化知识的方式,并允许将普通的语言语句(例如,IF A THEN B)转换为形式化的逻辑规则(a ñ B)。通常,逻辑规则由一组布尔表达式(A, B)与逻辑连接词(^,_,ñ,…)。逻辑规则也可以称为逻辑约束或逻辑句子。

知识图谱。一个图谱是一对(V, E),其中V是顶点,E是边。在知识图谱中,顶点(或节点)通常描述概念,边表示它们之间的(抽象)关系(如表1中的“穿衬衫的男人”的例子)。在普通的加权图中,边量化节点之间的关系强度和关系符号。

概率关系。概率关系的核心概念是一个随机变量X,可以根据潜在的概率分布P(X),从中抽取样本X。两个或两个以上的随机变量X, Y可以相互依赖,共同分布(x, y)~ P(X, Y)。先验知识可以是对随机变量条件独立性或相关结构的假设,甚至可以是对联合概率分布的完整描述。

人类的反馈。人类反馈是指通过用户和机器之间的直接界面来转换知识的技术。输入方式的选择决定了信息传输的方式。典型的模式包括键盘、鼠标和触摸屏,其次是语音和计算机视觉,例如用于动作捕捉的跟踪设备。理论上,知识也可以通过脑机接口直接通过脑信号传递。

4.3 Knowledge Integration

我们的文献调查显示,整合方法可以根据训练数据、假设集、学习算法和最终假设四个组成部分来分类。虽然我们将在第5节中更全面地介绍这些方法,但下面将给出第一个概念性概述。

训练数据。将知识纳入机器学习的标准方法是将其体现在底层训练数据中。传统机器学习的经典方法是特征工程,即根据专业知识创建适当的特征,而根据我们的定义,明智的方法是使用原始数据集和额外的、独立的先验知识来源的混合信息。这种单独的先验知识来源允许积累信息,因此可以创建第二个数据集,然后可以与原始训练数据一起使用,或作为原始训练数据的补充。一种突出的方法是模拟辅助机器学习,通过模拟结果来增强训练数据。

假设集。通过定义神经网络的结构和超参数,将知识整合到假设集中是很常见的。例如,卷积神经网络应用图像中物体的位置和平移不变性知识。一般来说,可以通过选择模型结构来整合知识。一个著名的例子是网络架构的设计,考虑到知识元素的映射,例如逻辑规则的符号,到特定的神经元。

学习算法。学习算法通常包含一个可以根据额外知识修改的损失函数,例如通过设计适当的正则化器。一种典型的机器学习方法是,先验知识以代数方程的形式,例如物理定律,通过附加损失项集成。

最后的假设。学习管道的输出,即最终的假设,可以根据现有的知识进行基准测试或验证。例如,与已知约束不一致的预测可以被丢弃或标记为可疑的,以便结果与先验知识一致。

5 DESCRIPTION OF INTEGRATION APPROACHES

在本节中,我们给出了知情机器学习方法的详细解释,我们发现在我们的文献调查。我们将专注于方法,因此根据知识表示结构我们的表示。这是基于这样一个假设,即类似的表示会以类似的方式集成到机器学习中,因为它们构成了集成的数学基础。此外,这些表示结合了第3.2.1节所述的面向应用和面向方法的视角。

对于每个知识表示,我们在一个单独的小节中描述了知情机器学习方法,并给出了观察到的(来自)知识源的路径和观察到的(通往)知识集成的路径。我们从主要路径实体开始描述每个维度,即我们在大多数论文中发现的那个。

如何将先验知识嵌入机器学习?《知信机器学习Informed ML》19页论文综述IML概念、分类和方法_知识表示_07

如何将先验知识嵌入机器学习?《知信机器学习Informed ML》19页论文综述IML概念、分类和方法_机器学习_08

CONCLUSION

在本文中,我们提出了一个统一的分类框架,用于将额外先验知识显式集成到机器学习中,我们使用知情机器学习的总称来描述它。我们的主要贡献是开发了一种分类法,它允许对方法进行结构化分类,并揭示主要路径。此外,我们对机器学习的概念进行了澄清,并对其进行了系统和全面的研究综述。这有助于当前和未来的机器学习用户识别正确的方法来使用他们的先验知识,例如,处理不足的训练数据或使他们的模型更健壮。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
IwAQx7pW1xBE