KAN与多层感知机之间有何区别,以及在深度学习中使用它们各自的优势是什么?
本文将讨论KAN背后的数学基础,以及其在深度神经网络中的巧妙应用。从可解释性的角度来看,KAN在深度学习中呈现了许多新的可能性,但在实际应用中,它也存在一系列问题。
深度学习中的KAN表示定理
KAN表示定理指出,任何多元函数都可以分解为不同一元函数的和,从而简化了复杂函数的计算。
内部函数(?)是对输入数据的初始变换,与多层感知机(MLPs)不同的是,它可能是非线性变换,即使用单个变量的信息进行的任意阶变换。另一方面,外部函数(?)决定了原始多元函数中不同变量之间的复杂交互。
内部函数学习的是关于每个变量的单独模式,因为正如我们在下面的等式中所看到的,每个内部函数都只与一个变量相关。另一方面,通过外部函数,我们可以捕捉不同变量之间的交互。这样一来,KAN表示定理假设原始多元函数可以分解为复杂性较低的函数,这些函数既能捕捉变量之间的关系,又能捕捉每个单独变量的模式。
在KAN的情况下,内部函数和外部函数的处理方式是相同的,在原始实现中均使用B样条(B-splines)。当将多个KAN层串联在一起时,初始层始终表示KAN表示定理中的内部函数,而第二层则作为前一层的外部函数,随后第二层又被视为第三层的内部函数。通过这种方式,第一层以上的每一层都将捕捉多元函数的组合模式。此过程如下图所示:
考虑到上图,KAN的层工作方式如下:
一般来说,这意味着要设计一个KAN层,如果我们有输入大小d和输出大小m,那么我们总共有d x m次变换(线性或非线性),这些变换在各自的维度上求和后,会收敛到以下数学表达式中:
基于B样条的KAN与MLP的差异
KAN表示定理本身并未规定内部函数(?)和外部函数(?)应如何使用,这为KAN的实现留下了广泛的可能性。在此情况下,我们将重点介绍在KAN实现中最为流行的使用B样条的方法。然而,也有几种实现方法进行了融合,它们各自具有相对于B样条的不同优势,但同时也存在一些缺点。
每次变换的表现力
在2024年进行的原始实现中,使用样条对一元函数进行了参数化,与MLP相比呈现出以下差异:
下图说明了一个单个感知器的行为。在MLP的情况下,具体来说是在隐藏层中,感知器的输入是前一层中所有感知器输出的加权和。然而,为了简单起见,我们只表示一个只有一个输入的孤立神经元,而不是属于隐藏层的神经元。
从图形上看,我们可以看到感知器执行的线性和非线性变换;在下面的图片中,展示了这两种变换以及这些变换的组合:
这样,在MLP的情况下,固定的激活函数极大地限制了不同神经元可能具有的输出值。在前面的图片中,我们可以看到,对于sigmoid函数,神经元执行的总变换(考虑线性和非线性变换)与sigmoid函数的原始形状非常相似,只是略微向上平移(由于线性变换的偏置)并且斜率更陡(由于线性变换的原始斜率)。如我们所见,这种变换对每个感知器的表现力增加有限。
虽然KAN通过其基于样条的架构为建模复杂模式提供了增强的表现力,但多层感知器(MLP)由于通用近似定理(UAT)仍然是深度学习的基础。该定理保证,只要宽度足够,即使是单隐藏层的MLP也可以以任意精度近似任何连续函数。因此,从理论上讲,MLP可以表示与KAN具有可比复杂性的函数,尽管这需要更多的参数和计算资源。
UAT本身并不偏好MLP而不是KAN;相反,它强调这两种架构在理论上都是通用近似器。正如在以下部分中讨论的,KAN相对于MLP具有一些重要的优势,反之亦然。
可追溯性
在KAN的情况下,初始变换应用于网络边缘的单个变量。节点中这些变换的求和保证了后续层中捕获了多元交互,如图X所示。这种方法即使在堆叠多层KAN时也能确保可追溯性。通过跟踪第一层的路径,我们可以清楚地观察到每个变量是如何单独变换的。后续层执行的变换可以数学上分解为基于前一层的操作和这些变换的求和。最终,这导致仅涉及单个变量的变换。
相比之下,对于MLP,要学习的权重分布在进入每个感知器之前被加权的许多连接上。这种分布使得很难确定单个输入变量的影响。
可解释性
从可解释性的角度来看,由于KAN可以通过非线性变换(具有很大的通用性)和随后的加法运算来表示,因此复杂函数可以分解为人类可解释的简单函数。
在MLP的情况下,分配给每个感知器的加权权重对网络的可解释性产生了非常负面的影响,并且固定的激活函数几乎没有留下解释的空间。每当堆叠几层时,可解释性就会丧失或难以获得。
KAN是MLP的推广
我们可以将KAN视为在MLP中执行的变换的推广,因为在最简单的情况下可以获得类似的结果:
在最简单的情况下,KAN如何收敛到感知器
计算B样条的公式取决于控制点和基函数:
Bᵢ 表示第 i 个基函数,?ᵢ(此处更常见表示或约定为 Pᵢ 等以体现控制点,但按原文表述)表示第 i 个控制点。要生成次数(阶数)为 i 的函数,总共需要 i + 1 个基函数和控制点。
因此,对于线性 B 样条(次数为 1)而言,我们需要使用两个控制点(P₁,P₂)和两个基函数(B₁,B₂)。在这种情况下,我们可以对上述公式作如下理解:
在线性样条(曲线)的情况下,我们有以下基函数:
如果我们代入上述公式,就能够区分出与线性变换相关联的分量的偏差(bias),正如我们所见,该偏差所表达的概念与多层感知机(MLP)所执行的线性变换是相同的。
KAN的优势
KAN网络中内部函数和外部函数的使用相较于多层感知机(MLP)带来了一些关键优势:
KAN的劣势
然而,与MLP相比,KAN网络也存在一些劣势:
结论
总之,虽然MLP在UAT(通用逼近定理)的广泛保证下仍然不可或缺,但KAN网络为专门应用提供了一个补充框架,在这些应用中,其结构优势与问题特定要求相契合,主要在符号学习领域。