本篇文章11450字,读完约29分钟

根据雷锋的《人工智能科技评论》,“深度学习”是机器学习领域的一本沉重的书。这三位作者是机器学习领域的名人伊恩·古德费勒(ian goodfellow),谷歌大脑研究科学家甘(gan)的创始人,蒙特利尔大学的教授约舒亚·本吉奥(yoshua bengio),他是神经网络领域的三位创始人之一(也是伊恩·古德费勒的老师),以及蒙特利尔大学的神经网络和数据挖掘教授亚伦·库维尔(aaron courville)。只要看看作者阵容,我们就知道这本书肯定能从基础知识和深层次学习的原则中谈论最新的方法,并且在技术的应用方面有很多具体的介绍。这本书不仅是针对大学生学习相关专业,但也提供了可靠的指导和新鲜的想法,以解决问题的研究人员和技术人员在该行业。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

面对如此精彩的一本书,无论你是否开始阅读,雷研究会都希望为你提供一个共同讨论和提高的机会。所以我们邀请了在百度和阿里工作的高级算法工程师王启文与大家分享他的阅读经验。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

分享者:王启文,高级算法工程师,在百度和阿里工作,担任推荐系统、分布式系统、数据挖掘、用户建模和聊天机器人。“在算法的道路上,前进”。

“深度学习”阅读分享(2) ——第二章线性代数

上次我们谈到了“深度学习”的第一章:引言。今天我们分享第二章:线性代数。右上角是本章的目录,从第27页到第42页,内容很少,基本上是传统的形式概念。同样,我只谈论直觉思维,尽可能少用公式。毕竟,许多人看到数学公式都会头疼,更不用说在ppt上阅读了。效果不好,容易催眠。当他们看着他们的时候,他们会在中国。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

左边是基本框架,开始会有一些基本的介绍,比如标量、向量、矩阵和张量;然后详细说明向量、矩阵和矩阵分解。应特别强调矩阵分解:“特征值分解”和“奇异值分解”;那么,向量和矩阵之间是什么关系呢?最后给出了一个应用实例。这一部分对于机器学习和深度学习非常重要。如果你想从事机器学习的研究或工作,你必须掌握它。今天的线性代数是所有数学基础中最简单的。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

我将把它分成两部分。第一部分是一个非常传统的方法,这是谈论一些传统的定义和概念,如什么是向量,什么是标量。这相当无聊。我会说得更快,并帮助你快速复习你所学的线性代数或高等代数(数学系的教科书),并将知识带回给老师一点点!你不能白交学费,是吗?)所以请注意。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

在第二部分,我将以不同的方式重新理解线性代数的本质。这部分是精华,大多数人以前从未见过,所以我相信你会得到启发。

第一部分:传统方法

几种类型:

标量只是一个数字,就像x=3,它是一个数值;向量是一个列数或一堆数,排列成一行或一列,然后对应于线性空.中的一个点或向量(即有方向的线段)这种线性空可以是多维的,取决于它是2D还是3D。像x=(1,3,6)一样,它对应于三个坐标,即三维空中的一个点;从三维空原点到这一点的有向线段是矢量。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

然后是矩阵。矩阵是按行或列方向排列向量的二维数组。像这样排列在矩阵a的右边。

张量是基于矩阵的高维抽象,其维数可能比以前更高,主要对应于包含多个坐标轴的规则网格。

从刚才那些解释中,我们可以发现:

标量相当于一维向量(暂时忽略方向,严格来说,是一维向量的大小)

向量是一个只有一维的矩阵

矩阵是张量的一部分

从上到下,尺寸逐渐提高。相反,从下至上,张量、矩阵、向量和标量都是降维的过程。因此,前者只是后者的一种特殊形式,例如,任何向量都是张量的一种特殊形式。简而言之,张量就是一切。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

矢量一般分为两部分:方向和长度。像这样的x是一个单位向量,其特征是长度为1个单位。

关于向量有两种理解:

把它想象成线性空中的一个点

把它想象成一条有方向的线段

两者都可以。

有两种与向量相关的运算,一种是内积,另一种是外积。根据定义,内积将生成一个数,外积将生成一个向量。需要根据右手坐标系确定方向,保持手掌、四个手指和拇指相互垂直,并使手掌和四个手指分别对应两个向量,拇指的方向可以通过一个笔画得到,大小可以根据公式sin计算。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

一些特殊的矢量,例如零矢量,对应于线性空内部的原点;单位向量的长度是一。还有一个叫做正交性的概念,它简单地意味着空的两个向量相互垂直。如何垂直判断?也就是说,两个向量是内积,公式中有一个陪θ。如果θ等于90度,结果为零;这是正交性。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

向量长度有一个度量:范数。向量长度是用范数来度量的,它对应于不同的表达式。

L1范数,取每个元素的绝对值,然后求和;

L2范数下,l1的绝对值变为平方,外层为平方;

还有P范数,其中P值由它自己指定;

f范数通常只适用于矩阵,其中每个元素被平方,然后求和。

可以看出,P范数是一种普遍形式,p=1或2分别对应l1和l2(对应机器学习中的l1和l2正则性)

矩阵相关概念。

同型,如果两个矩阵A和B是同型的,那么A和B的维数是相同的。例如,A是m×n,B是x×y,那么M等于X,N等于Y,这是关键;

对于m×n的矩阵,方阵是,如果m等于n,它就是方阵。

恒等矩阵,对角线都是1;

对称,矩阵换位后不变;

秩和追踪。秩对应的概念称为线性表示,即矩阵中的每一行或每一列都选择一个方向(行或列),取一列,并与其他列进行加法、减法和数字乘法运算(只有这两种运算),其中任何一列都不能由其他列线性表示。现在听起来可能不容易理解,所以暂时可以发布。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

行列式在矩阵之外,比如这个3×3的矩阵,外面每边加一条垂直线,表示行列式;如何计算它?对每一行和每一列取一个数,这相当于三个元素的全部排列,然后乘以一个反数(反数是指每组元素的原始下标顺序,如果是反数,乘以-1,再乘以所有反数,最后得到一个方向,即行列式是正还是负)。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

逆矩阵,即矩阵A乘以某个矩阵得到单位矩阵,即逆矩阵;

伪逆矩阵是逆矩阵的扩展。

正交矩阵意味着每行和每列都是单位向量,其特征是aat=i..

刚才的内容可能不容易理解,但是每个人都学过线性代数的基础课,并且还能回忆起来。在第二部分,我将向你解释为什么会有这些东西。

矩阵运算,除了传统的矩阵乘法,还有一个特殊的乘积,这是相应的元素乘积,它的表示法不同,中间有一个圆;两个矩阵(必须是同一类型)的对应元素相乘,得到一个也是同一类型的新矩阵。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

让我们看看矩阵乘法。从右到左,这是作者(伊恩·古德费勒)的PPT中的一张图片,外国人的思维是从右到左的。这里有一个3×2矩阵和一个2×4矩阵。将两个矩阵相乘,也就是说,从两个矩阵中取一行一列,依次相乘,得到左矩阵。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

范数的目标是度量矩阵的大小。有许多种类,但不是所有的功能都可以被视为规范。有一些基本要求:例如,必须有一个零值,然后必须满足三角形不等式,也就是说,三角形的两边之和大于第三边,并且有若干次,对应于相等的尺度。缩放是一个乘以实数的函数,这是线性空.中的一个基本运算

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

这是p范数的表达式。事实上,P范数有一个广义的表达式,这是一个普遍的方法。它可以包括l1、l2和无限范式,它们由P的值决定,可以等于1、2和无穷大。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

行列式的计算方法很复杂,所以我不一一列举。直接给出一个直观的理解:测量一个向量在矩阵运算后会是什么样子,也就是说,它已经被空线性地缩放,它可以被放大或缩小,而缩放因子是行列式的值;行列式的符号(正或负)表示矩阵变换后坐标系的变化。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

有几种矩阵变换,如平移、缩放等。我们以后再谈这个,以免重复。

矩阵分解:

(1)特征值分解,这是我们常见的。有一个定义,例如,我们定义一个矩阵A,它乘以一个向量得到另一个数乘以同一个向量,反相= λ V。满足这个表达式称为矩阵的特征值分解,这是矩阵分解的一种典型形式。这个v是一个特征向量,这个λ是一个特征值,这是一对一的对应关系(一对好的基地朋友战斗并死去)。根据表达式可以有其他值,并且每个矩阵A将对应于多组特征向量和特征值;矩阵A的所有特征向量和特征值一一对应。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

如果矩阵是一个方阵(不仅m等于n,而且这个矩阵中的每一行和每一列都必须是线性独立的),我们可以进行这样的特征分解,把A分成一个正交矩阵乘以对角矩阵再乘以同一个正交矩阵的逆矩阵。对角矩阵逐个排列每个特征向量。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

还有一个叫做正定的概念,对于任何满足xaxt>0的实数,这个概念叫做正定;同样,有正半定,大于或等于0就是正半定;负值小于零。

(2)奇异值分解是矩阵特征分解的一个扩展,因为特征分解有一个强约束——A必须是一个方阵。如果不是方阵呢?没有办法吗?是的,奇异值分解被广泛应用于推荐系统中。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

这是特征分解的示意图。直观地,该圆上的两个向量v1和v2在矩阵变换后在两个特征方向上被缩放:在v1方向上缩放λ1倍成为新的v1;V2在v2方向上按λ2倍缩放,成为新的v2。这两个特征构成了一个完整的矩阵分解,即经过线性变换后获得的效果——在特征向量方向上缩放特征值的次数。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

Svd分解是一种扩展形式,它的表达式是这样的,所以我就不详细说明了。

向量和矩阵的结合可以解决求解线性方程组的常见问题。

这里有几个概念,一个叫做线性组合,即一个矩阵,其中一行或一列实际上是多个向量,一个新的向量是通过简单的加法、减法和乘法组合而成的,称为线性组合。如果基向量x1和x2用于加法和乘法,结果是x3=k1*x1+k2*x2,并且由一组向量组成的线性空,即由x1和x2组成的向量空,被称为生成器

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

如果两个向量x和y可以乘以α和1-α生成一个新向量,这称为线性表达式,即z向量由x和y线性表示,那么α和1-α都是数值,满足这种关系称为线性相关。也就是说,Z与X和y是线性相关的。如果它不满足,如果向量Z不能以这种方式表示,它被称为线性独立。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

这是一个对应于矩阵的线性方程组。这是一个矩阵。现在像右边一样展开它,也就是说,矩阵对应于线性方程。这很常见,所以我就不多说了。

矩阵方程的求解是将方程的各个系数组成矩阵A,根据矩阵A的特点,可以直接判断方程是否有解。有些情况下没有解决办法。

这些是矩阵方程的一些解,比较传统,例如ax=b,这是一个线性方程。常规方法:两边直接乘以A的逆矩阵。它有一个前提,即A的逆矩阵必须存在,也就是说,A中的每一行和每一列不能线性相关。这种方法通常用于演示,例如,计算一些小矩阵。事实上,甲的规模会很大,按照这种方法成本会很高。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

看看什么矩阵是不可逆的。矩阵m×n可以根据m和n的大小来分类:如果行大于列,通常称为长矩阵,否则称为宽矩阵;行比列大,并且它们是线性独立的,也就是说,没有解。宽矩阵有无数的解,其中每一列代表一个因变量,每一行代表一个方程。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

伪逆是逆的扩展。求逆必须要求矩阵满秩,即没有线性表示的部分。如果不满足,必须用伪逆法计算,这只是一种近似方法。Svd是一种强大的方法,因为它支持伪逆运算。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

在应用案例中,书中只提到了一个主成分分析,即线性降维,没有详细展开。事实上,pca在本书的许多章节中都有提及,所以我将向大家普及基本概念。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

这是主成分分析在图像中的应用。这张照片非常经典,每个学过数字图像处理的人都知道她——莉娜(提示:不要搜索莉娜的全身照片,~ ~ ~ ~ (> _看pca的基本过程。主成分分析的思想是矩阵中有许多列,这些列之间可能有一些线性关系。如何将其缩小到更小的维度,如二维或三维,并且在缩小维度后可以在很大程度上保留信息。如何定义这个学位?一般来说,累积贡献率约为85%以上,这些主成分具有保留意义。这种累积贡献率通过方差来反映,样本分布具有一定的噪声或随机分布。如果它在均值的左右方向偏移,它将不会影响方差。差异相当于信息量。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

此图解释了主成分分析的过程,它使用特征值分解,即X乘以X的转置,然后对其进行各种复杂的变换。你只需要看看它。如果你想知道细节,你可以自己找到数据,但是具体的过程暂时还不能解释清楚。pca的最终效果是什么?看中间的坐标系,并给出一个示意图。原始矩阵采用x1和x2维,通过输入样本点可以看到近似的椭圆分布。主成分分析的作用是得到一组新的坐标系,它们在长轴和短轴方向上相互正交,一个方向对应一个主成分。事实上,数据特征是二维以上的,而图形只是为了方便观察,从而完成一个降维的过程。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

右上角是一个例子,有一些动物样本,狗,小猫和气垫船(非动物)。在特写《空》中,它是这样展示的。理论上,动物会更近,而非动物会更远。如果使用主成分分析,结果可能是这样的,动物和非动物之间的区别不是很明显。因此,主成分分析实际上只能解决一些线性问题,在非线性情况下,求解效果不是很好。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

我该怎么办?采用非线性降维方法。典型的方法如t-sne(t分布-随机最近邻嵌入),流形方法。

流形只是由许多面片叠加而成的几何图形。基本假设是同一数据集中的每个样本将近似服从某种内部分布。例如,空之间的几何图形中的圆形或球形甚至正方形都有一定的内部结构。流形是试图通过非线性方法找到内部结构,然后将其映射到低维空.这似乎是深入的,所以我不会扩展它(涉及拓扑几何)。多方面的应该在后面几章中提到。需要理解流形的概念,在自编码器后面的章节中也会提到。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

这是一个复合螺旋数据集,显示在空.用线性方法分离是不可能的。流形呢?近似地找到一个非线性的方法,假设这两个坏蛋把它拉开,不同的类别可以分开。流行的学习相当于这两个恶棍将二维流形从非线性展平为线性。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

此图显示了主成分分析。在2006年之前,这种方法非常实用。说到降维,主成分分析是第一选择。基本思想是在方差变化最大的方向和数据集的垂直方向上选择两个主分量v1和v2,然后对数据集进行一些线性变换。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

在非线性分布的情况下,主成分分析是不可行的,其他线性方法也是不可行的,它们必须是非线性的。

这里,我们应该提到降维方法。降维中使用的相关方案很多,主要分为两类。一种是人工方法。例如,信息论中有霍夫曼编码,霍夫曼编码也是一种降维。这是一个可逆的方法;此外还有其他自动化方法,因为劳动力毕竟是昂贵的,所以我们需要找到自动化解决方案,如主成分分析,非线性t-sne,以及以下自编码器等。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

下图总结了常用的数据降维方法。线性方法包括主成分分析和线性判别分析,非线性方法分为保留局部特征和保留全局特征。还有很多很多更远的地方,所以让我们自己去发现。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

然而,照片中并没有提到网络,因为网络是新的,在2012年左右开始流行。它实际上是由geoffery hinton团队发明的,现在它主要用于高维数据的可视化。

像这样的数据集,在三维空中,是服从球形分布的数据集,然后使用不同的非线性方法来降低维数,这在整体上仍然是好的。不同的颜色可以区分清楚,没有大的混合,这基本上是可以的。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

看另一个。这是一个S形结构。将这些非线性方法用于降维后,可以清楚地区分。

以mnist数据集为例。Mnist是一些手写数字的图片,它们根据行方向被拉伸成一维向量。因为这张图片是28×28,拉伸的一维向量是784维。由于维度相对较高,人们在视觉上看到的基本上是二维或三维的,所以有两个像素,比如图像中第18行和第15列的像素,以及第7行和第12列的像素。然后想象一个x轴和一个y轴,看看有什么不同。显然,从这个结果来看是不好的,不同的颜色是分散的;因此,我们不能直接区分几个像素。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

让我们来看看主成分分析的效果。它将784维降维,然后取两个主分量,X轴和Y轴是两个主分量。与上图相比,效果相当显著,而且周围的颜色很接近。但是中间的一个肿块不起作用,这是它的局限性,部分分割效果还可以。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

看起来更好的是t-sne,它显然与上面的数量级不同。不同的颜色紧密地融合在一起,不同的颜色之间有一些分隔线。这些领域仍然非常清楚,这就是它强大的原因。T-sne在非线性降维中排名第一。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

我刚才讲的是第一部分,内容庞杂,简单难懂。事实上,这本书也是基于这种传统思维。数学本身很抽象,但它能变得更生动吗?是的,你可以。

第二部分:直觉理解

传统的教学方法,从初中到大学,很多老师把概念记在书里,堆砌公式,只灌输,不解释。他们不会告诉你这个操作的几何意义是什么,读完之后也记不起来了。这就是为什么许多人觉得他们以前学习过,甚至获得了高分,但现在他们似乎已经把它们还给老师了。如果你在情感上不理解知识点,随着时间的推移,你会忘记它们。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

所以让我们换一种方式。输入第二个链接。

我会参考一些材料。例如,第一个是线性代数的本质,这是一个由外国专家制作的教学视频(3blue1brown,非营利,接受捐赠)。你可以在youtube上看。比利比利也有中文翻译,优酷也有。本教程非常好,所有这些都使用视频可视化直观地解释线性代数。第二个是马同学的高等数学,公众发表的几篇文章也很好,与3blue1brown不谋而合。毫不夸张地说,读完这两个教程,你会有一种相见恨晚的感觉,成为一个新人。视频中有几点:

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

事实上,在国内外的传统教学中,人一直被当作机器来使用,有无数种奇特的行列式,但我没有告诉你它是什么以及为什么。

许多人天生害怕数学。不要责怪你。有些老师有复杂简单的问题,这让你怀疑自己的智商,认定自己不是学习数学的材料。所以当你看到数学时,你会避免它。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

对于初学者来说,一个好的解释比证明重要得多。

这是我著名的笔记:线性代数笔记。

刚才说有一个矩阵,对吗?让我们看看矩阵在做什么。这个(x,y,z)是一个向量,在被一个矩阵变换后,它变成(ax乘以cz),对应于x,y和z的原始方向分别被a,b和c放大。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

你如何理解图片中的内容?看看这个,这是一个矩阵,看坐标系的变化。这是在X轴方向放大1.5倍,在Y轴方向缩小一半,效果是这样的。x轴和Y轴都已缩放,相应轴上的坐标和点也已缩放。整个空被拉伸,x轴方向被拉伸,y轴方向被压缩。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

让我们假设这些二维平面上的样本点在变化后会是这样的。x的范围是从-1到1,然后变为-1.2到+1.2,即在x方向上缩放1.2倍,在y轴方向上缩放1.3倍(采样点之间的距离变宽)。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

如果有负值,概念是什么?它是轴向方向的变化(术语:手性变化,如左手变为右手)

例如,Y轴有一个负号,刚才是0.5,现在是-0.5,也就是说,Y轴向下,负号反转,这类似于镜面反射。如果x也是负的,它相对于坐标原点的中心是对称的。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

在里面放一个图形,看起来会更直观。m,在这个转换之后,它看起来像这样。对角线的第一个元素作用在X轴上,X轴沿Y轴对折,即镜面反射。原来M在这里,它是这个矩阵的作用。y轴没有变化,因为它是1,所以既不放大也不缩小。在第二个例子中,y轴是负的,所以它沿着x轴反向。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

如果两者都是负的,那么它是中心对称的,从第一象限转到第三象限。

如果有这种情况,这就是矩阵是不可逆的,它的行列式是0。0,会发生什么?原来这是一个坐标系,这里变成了一条线,就是做一个降维操作,把两个维度变成一个。那个能回去吗?不可能,所以这叫做不可逆。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

与刚才相比,右上角有一个元素0.3。这是一个上三角矩阵。这是什么意思?从图表的结果来看,沿着Y轴的方向是恒定的,而X方向是一种错误的切割,也称为移位。图像理解意味着站在上面,然后把盒子推到这边,底部不动,然后有一个移动的动作。为什么会这样?你可以拿着这个矩阵,随便拿一个点去感受它。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

第一行总是在x轴方向上起作用,这与原始行相比增加了一个项。它显示X轴的方向已经增加,Y轴的信息已经增加和扩展,但是Y轴没有改变,所以Y不变,X被拉伸。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

当红色矩阵变成蓝色时,有一个错误的切割,一个力从左向右推动。

这也是文章后的效果。

上三角和下三角呢?也就是说,x轴不变,沿着y轴移动,这里。

好的,这部分是关于旋转的。m被这个矩阵旋转,它是一个正交矩阵。正交意味着矩阵的行列式为1,这意味着X轴和Y轴不按比例缩放,而只是围绕原点旋转。这是做一个旋转,根据π/4的角度。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

我刚才说了几个变化,第一次旋转,第二次错切,第三次平移,加上缩放。线性变换中不包括翻译;线性变换加上平移是仿射变化。

那么什么是线性变换呢?线性空之间的任意点在变化前后保持等距分布!

以下不是线性变换,因为距离不相等。

矩阵分解意味着每个矩阵都是这些基本变化的组合。这部分已经过去了,这有点困难。当这门课谈到数学分析中的矩阵时,操作成本非常高。如何让电脑跑得更快?做矩阵分解,把一个大矩阵分成几个小矩阵,这样会更快。矩阵分解的基本目的之一是提高计算效率。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

接下来,我们将讨论矩阵的特征值和特征向量。首先有一个直观的概念,特征向量反映了它在这个变换后的变化方向;特征值反映了变换的幅度。为什么会这样?往下看。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

这是一个坐标系统x和y与一个向量,或一个点在二维平面上,乘以一个矩阵。

将其乘以另一个矩阵,它可能会变成这样。如果你看图像之间的差异,V在相乘后仍然在这个方向;变换前后的区别是方向不变,但大小被拉长了。如果这是真的,那么λ是A的一个特征值,V是A的一个特征向量。A矩阵可能有其他的情况,也可能有其他的特征值和特征向量。矩阵特征值分解的作用是在矩阵a的平面上找到满足这种关系的所有向量集

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

这些是特征值表示的一些传统公式。将一个矩阵乘以一个向量,得到一个特征值乘以一个向量,这个向量反映了它在v方向上被拉伸的次数。这是通过特征值分解来揭示矩阵本身的特征。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

刚才提到了一个特征向量和一个特征值,还有别的吗?是的,这也是事实。这个V是它的特征向量之一,它的长度也对应于一个特征值,它是矩阵A的两个特征值。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

对应于矩阵A的两个特征向量和两个特征值,如果特征向量被相乘,例如,把这个v1乘以2,然后乘以3;the/きだよきだよきだよききだだがきききだきだきき0/被称为特征/。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

这里有一个近似而生动的表达,那就是,矩阵是一种运动。在物理学中,有两个运动的概念。第一个是去哪里,第二个是去多少,相当于速度加上方向。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

运动是动态的,点代表瞬时状态。为了观察静止的运动,我们必须依靠一个实体。例如,要观察跑步现象,你必须总是找到一个物体,比如看人跑,看猪跑,看老虎跑。在你能看到它的变化过程之前,你必须总是找到一个物体附着在它上面。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

对于同样的运动,A代表这种运动。如果它被应用于一个向量很多次,它会产生什么变化?像A这样的矩阵是一种变换,作用于特征向量V,点在这里一次,这里两次,这里三次,四次。朝这个方向七次,然后如果朝这个方向八九次。这里有一个奇怪的现象,就是当一个向量被线性变换时,它会在N次之后接近一个方向,并且它不会再改变方向。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

事实上,这个方向有一定的意义,它是对应于矩阵分解的最大特征值的方向。简而言之,重复使用矩阵乘法最明显的特点是,整个运动方向将向矩阵的最大特征向量移动,这就是它的几何解释。在一般代数中,你可能根本不会想到这一点。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

补充:这是我自己加的。一开始,向量朝这个方向走,变化很大,反映了矩阵本身的特征值,贫富差距很大。两个不同方向的特征值,一个比另一个大很多倍,它们的差异非常大。这种情况被称为病态,它是由条件数来衡量的。条件数的概念是矩阵的最大特征值和最小特征值的倍数。通过将最大特征值除以最小特征值获得的比值例如是3或10。如果肯定是10岁,这种疾病就更严重,而且是不可治愈的。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

转换这个矩阵时你应该非常小心。如果在梯度下降中遇到这个矩阵,它很容易在整个优化空中保持振荡,并且很难收敛。

接下来,让我们看看特征分解。该矩阵分解后,中间有一个对角矩阵,对应于每个特征值。对于像A这样的矩阵,在特征分解后,两个特征值是3和1,然后左右对应一个特征向量。例如,左矩阵的第一列向量是对应于特征值3的特征向量。如果你不相信,你可以试试。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

类似地,左矩阵的第二列向量是对应于1的特征向量,其是一对一的特征向量。与左右矩阵相比,它只是一个换位。另外,矩阵中有正交向量,左右矩阵只会旋转,不会缩放;中间的对角矩阵被缩放。因此,整个矩阵的功能是旋转和缩放。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

因此,特征值是一种拉伸,它测量沿特征向量方向拉伸的程度;那么特征向量就是拉伸方向。因此,我们应该更好地理解我们上来时所说的,即特征值和特征向量对应于运动的速度和方向。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

这部分是关于矩阵的秩和线性方程之间的关系。Ax=b,一个线性方程组,当且仅当矩阵的秩等于其增广矩阵的秩且等于n时,才有唯一解。也就是说,满秩方程有解;无解的条件是其矩阵的秩小于增广矩阵的秩,即A不是满秩,或者是不可逆的;如果有多个解,那么像这样加上增广矩阵后仍小于n。这是一个数学表达式,但它仍然不够生动。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

现在,为了理解这个图像,我简化了线性方程,并将它们转化为二元线性方程。当方程画在空之间时,有两条直线,这两条方程的解是两条直线的交点。只有这一点同时满足这两个方程,这是唯一直观的解决办法。所以如果你这样理解,唯一的解决办法就是只有一个交集;如果没有解,一条直线就和另一条直线平行,两条直线就没有交集,也就是说,没有解;有很多解决办法。如果平行的直线放在一起,叠加在一起并且完全重合,那么就有很多解,因为一条直线可以包含任意数量的点。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

让我们来看看矩阵解线性方程的几何意义。取一组正交基i=(1,0)和j=(0,1)作为这个空的上x轴y轴,然后空的点可以用ai+bi表示,a和b是

如果I和J共线,这是共线的,也就是说,I和J可以用i=kj表示。共线性相当于降维操作,它将原来的二维空变换为一维,这是不可逆的。

a是这个矩阵在整个方程的线性空之间的变换,即旋转。在整个变换过程中,X点相对于变换后坐标系的相对位置没有变化,但相对于原始坐标系发生了变化。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

用形象的方式去理解它,就像我们去坐公共汽车,汽车在动,我们也在动;我们相对于汽车是静止的,但我们相对于地面是运动的。相对于地面运动的过程是矩阵改变矢量的结果,就像这样。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

地球坐标系相当于地面,当你上车回到地球时,就会发生位移。这种转变改变了空.的每一点

回到线性方程。Ax=b是线性方程的表示,它的直观解释是找到这样一个向量,它在线性变换后变为b点。我们需要找到x,这是b的原始外观,这是一个可逆的操作。这就是线性方程的含义。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

这部分由我自己补充。

例如,刚才,从x到b,你能从b回到x吗?如果可能,它是可逆的,相应的A的变化是可逆的;如果不是,这是不可逆转的。

这是不可逆转的,如何理解它?这是一种降维打击,例如,把一个立方体做成一个平面,就像一张纸;然后把纸揉成一团,然后直接砸到十八层地狱。这些是降维攻击,是不可逆的。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

当事情不可逆转的时候该怎么办,如果你想尽可能的回去,你可以稍微偏离一下。伪逆是逆的一种延伸,它只是一种拜访(化为鬼魅,回归原位)。一般线性方程中有许多样本和许多点;矩阵是不可逆的,所以求它的最小二乘解,并使这条线尽可能靠近所有的点。这是一个近似的方法,也就是说,不可逆,但是我们尽力让他回去(中国人的思想深入骨髓:落叶归根)。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

另一个概念是,既然有维度减少,就有维度增加。我该如何理解圣威?假设从北京坐火车去西藏要花很长时间。这可能需要两天三夜,而且会很累。然而,富人可以乘飞机快速到达那里,这叫做升级。飞机的飞行路线在垂直高度上是不同的,但火车的高度在整个过程中差别不大。(不同的生活方式在不同的维度,有一个笑话:“当我变得富有,每天吃包子!”你不了解富裕世界,也不了解乞丐世界。(

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

如何理解特征分解?公共汽车沿着既定路线行驶,先向东两公里,然后向西三公里,再向东北五公里,然后回家。这里,方向是特征向量,两公里、三公里和五公里的范围是特征值。行列式是什么意思?这条路线的长度。这种理解应该更加直观。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

大于零的行列式具有放大效应;等于0的行列式是降维和不可逆的函数;行列式小于零,这是坐标系的反映。注:行列式和特征值与坐标系无关,但反映了矩阵本身的特征。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

这是一个2×2矩阵。让我们看看改变行列式的大小会有什么影响。当行列式大于1时,存在放大效应;如果我减少行列式的值,它将收缩,然后它将保持不变,直到1;在0到1的范围内收缩;注意这一点,如果它等于0,它将减少维度,成为一个点;再往右,行列式为负,A和B翻转,X轴在这里沿Y轴反射;那么缩放与正图像方向相同。这个过程很容易理解,这就是所谓的行列式的几何意义。

「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

最后,它以一幅画结束:

雷锋。(公开号码:雷锋。人工智能科技评论。我要感谢来自王琦的尊贵的客人们分享和帮助补充和校对这篇文章。

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:「Deep Learning」读书系列分享第二章:线性代数 | 分享总结

地址:http://www.hcsbodzyz.com/hcxw/6784.html