学习ML、RL前最好的数学基础回顾

概率论与统计基础

这三个文件是对基础概率论以及随机过程相关的统计知识回顾,尤其推荐“Probability and Statistics for Data Science”该文件,这篇文章在本科的基础概率论与统计学基础上更进一步阐述了对DataScience更需要的统计基础梳理知识,其目录大概如下:

  • Chapter 1 Basic Probability Theory (基础概率论):

引入了概率空间 (Probability spaces) 的概念,包括样本空间 (Sample space) Ω、事件集合 (Set of events) F (必须是 σ-algebra) 和概率测度 (Probability measure) P。还讨论了 条件概率 (Conditional probability) 和 独立性 (Independence)。

  • Chapter 2 Random Variables (随机变量):

定义了随机变量是样本空间 Ω 到实数 R 的函数。区分了离散随机变量 (Discrete random variables) (及其概率质量函数 PMF) 和 连续随机变量 (Continuous random variables) (及其累积分布函数 CDF 和概率密度函数 PDF)。还包括基于事件的条件化、随机变量的函数 以及生成随机变量的方法 (如逆变换采样 Inverse-transform sampling)。介绍了指数分布 (Exponential) (及其无记忆性) 和高斯分布 (Gaussian or Normal)。

  • Chapter 3 Multivariate Random Variables (多元随机变量):

讨论了多个随机变量或随机向量的联合分布 (Joint distributions)(离散 和连续)以及如何通过边缘化 (marginalization) 获得边缘分布 (Marginal distributions)。详细介绍了多元随机变量的独立性 (Independence),特别是如何使用图形模型 (Graphical models)(如 DAGs)表示变量间的依赖结构。还涵盖了多元随机变量的函数 和生成多元随机变量的方法 (如链式规则 Chain rule, 拒绝采样 Rejection sampling)。

  • Chapter 4 Expectation (期望):

定义了期望算子 (Expectation operator),讨论了随机变量的均值 (Mean) 和方差 (Variance) 以及协方差 (Covariance)。表中列出了常见分布的均值和方差。还重点介绍了条件期望 (Conditional expectation)。

  • Chapter 5 Random Processes (随机过程):

定义了随机过程 (Random process) 是将样本空间 Ω 映射到函数。区分了连续时间 (Continuous-time) 和离散时间 (Discrete-time) 随机过程以及离散状态 (Discrete-state) 和连续状态 (Continuous-state)。介绍了随机过程的均值函数和自协方差函数。提及了独立同分布序列 (iid sequences)、高斯过程 (Gaussian process)、泊松过程 (Poisson process) 和随机游走 (Random walk)。

  • Chapter 6 Convergence of Random Processes (随机过程的收敛性):

讨论了随机过程的不同收敛类型 (Types of convergence),包括几乎必然收敛 (Convergence with probability one)、均方收敛 (Convergence in mean square) 和依概率收敛 (Convergence in probability)。介绍了大数定律 (Law of large numbers) 和中心极限定理 (Central limit theorem)。还提到了使用蒙特卡洛模拟 (Monte Carlo simulation) 来近似事件概率。

  • Chapter 7 Markov Chains (马尔可夫链):

详细介绍了马尔可夫链的概念 (通过依赖结构 DAG 表示),特别是时间齐次有限状态马尔可夫链 (Time-homogeneous finite-state Markov chains)。讨论了状态向量 (State vector) 和平稳分布 (Stationary distribution) 的概念以及状态向量随时间的演变和收敛性(使用特征值分解)。介绍了马尔可夫链蒙特卡洛 (MCMC) 方法,特别是Metropolis-Hastings 算法。

  • Chapter 9 Frequentist Statistics (频率派统计):

介绍了将数据建模为 iid 序列 的观点。定义了估计器 (Estimator) 和均方误差 (Mean square error MSE)。讨论了参数模型估计 (Parametric model estimation),特别是最大似然估计 (Maximum Likelihood Estimation MLE) 的原理(似然函数 Likelihood function 和对数似然函数 log-likelihood)。

  • Chapter 10 Bayesian Statistics (贝叶斯统计):

介绍了贝叶斯方法中将参数建模为随机变量。讨论了后验分布 (Posterior distribution) 和最大后验估计 (Maximum-a-posteriori estimation MAP) 的定义。解释了 MAP 和 ML 在均匀先验 (uniform prior) 下的关系 以及 MAP 估计器在离散参数情况下最小化错误概率的性质。

  • Chapter 12 Linear Regression (线性回归):

介绍了线性模型 (Linear models),最小二乘估计 (Least-squares estimation),其几何解释 和概率解释(最小二乘估计是高斯噪声下的最大似然估计),以及过拟合 (Overfitting) 的概念。

  • Appendix A Set theory (集合论):

回顾了集合的基本定义和操作(补集、并集、交集等)。

  • Appendix B Linear Algebra (线性代数):

回顾了向量空间 (Vector space)、投影 (Projections) 等基本概念。

可以主要依靠该文件的不了解的部分来进行统计学知识的复习,特别是贝叶斯统计部分以及MDP部分,是ML以及DRL相关的重要理论支撑。

代数

基础和运算:

  • 核心: 掌握 基本符号 (章节 1)矩阵乘法及其不同视角 (章节 2)。这是理解后续所有内容的基础。特别要注意矩阵乘法的维度匹配和结合律、分配律。
  • 工具: 复习 转置 (章节 3.2) 及其性质,尤其是 (AB)T = BTAT。学习 迹 (章节 3.4),特别是 trAB = trBA 这个性质,它在推导中非常有用。
  • 长度与距离: 理解 范数 (章节 3.5),尤其是 ℓ2 范数,它与距离和最小二乘紧密相关。Frobenius 范数在矩阵误差衡量中常见。

矩阵结构与性质:

  • 特殊矩阵: 熟悉 单位矩阵和对角矩阵 (章节 3.1)
  • 重要结构: 理解 对称矩阵 (章节 3.3)。对称矩阵的许多性质在 ML 中有重要应用(如协方差矩阵、核函数矩阵)。
  • 可逆性与满秩: 掌握 线性独立性和秩 (章节 3.6)。理解 逆矩阵 (章节 3.7) 的定义、存在条件 (满秩) 和基本性质。逆矩阵是解线性系统和理解某些变换的关键。

向量空间与变换:

  • 空间概念: 理解 范围 (列空间) 和零空间 (章节 3.9)。范围表示矩阵乘法能够“到达”的空间,零空间则表示被映射到零向量的空间。这有助于理解数据的变换和损失的信息。范围上的投影公式 与最小二乘直接相关,非常重要。
  • 特殊变换: 理解 正交矩阵 (章节 3.8),它们的逆是转置,且保持向量长度和夹角(欧几里得范数不变)。这在降维 (如 PCA) 和数值稳定性中有用。

高级概念 (与优化和数据分析强相关):

  • 体积与奇异性: 理解 行列式 (章节 3.10)。记住 |A|=0 当且仅当 A 奇异 (不可逆),这与其几何意义(体积为零)相符。|AB|=|A||B| 也很有用。
  • 形状与曲率: 深入理解 二次型和正定/半正定矩阵 (章节 3.11)正定/半正定矩阵 是判断优化问题凸性(convexity)的关键。ATA 矩阵总是半正定/正定这一性质也很有用。
  • 变换的核心: 特征值和特征向量 (章节 3.12) 是理解矩阵变换作用的关键。它们描述了在矩阵作用下方向不变的向量以及其伸缩因子。
  • 对称矩阵的特性: 对称矩阵的特征值和特征向量性质 (章节 3.13) 在 ML 中尤为重要。记住特征值是实数,特征向量是标准正交的。最关键的是,理解特征值符号与矩阵定性的关系(这直接关联到凸性),以及 特征值和特征向量与二次型优化 (在单位球上) 的联系。最大特征值对应最大二次型值,最小特征值对应最小二次型值。

矩阵微积分 (直接服务于优化):

  • 基础: 理解 梯度和 Hessian 的定义 (章节 4.1, 4.2),知道它们是实值函数对向量或矩阵的偏导数推广,以及它们的维度。注意梯度的符号约定和复合函数梯度求导时的变量指定。
  • 重要公式: 务必掌握线性函数和二次型的梯度和 Hessian 公式 (章节 4.3)∇x(bTx) = b∇x(xTAx) = 2Ax (A对称)∇²x(xTAx) = 2A (A对称)。这些是优化算法中最常用的公式。
  • 典型应用: 理解 最小二乘问题的推导 (章节 4.4)。通过最小化范数的平方(一个二次型)来求梯度并得到正规方程,这是一个使用矩阵微积分解决实际优化问题的经典范例。
  • 其他梯度: 了解行列式和对数行列式的梯度公式 (章节 4.5)。log|A| 的梯度是 A⁻¹ (A对称正定时) 在某些概率模型中有用。
  • 优化联系: 通过拉格朗日乘子法理解 特征值作为优化问题的解 (章节 4.6)。这再次巩固了特征值/向量与二次型优化的联系。

    总结复习计划:

    建议按照上述顺序进行复习。从基础概念和矩阵乘法开始,确保对矩阵运算有扎实的理解。然后逐步深入到矩阵的各种性质和重要的特殊类型。在学习秩、逆、范围、零空间等概念时,思考它们与线性方程组解的存在性和唯一性、以及向量空间的关系。特征值、特征向量、二次型和矩阵定性是联系线性代数与优化理论的桥梁,需要重点理解其定义、性质以及相互之间的联系,特别是对称矩阵的情况。最后,矩阵微积分是求解许多 ML/RL 目标函数最小化/最大化的直接工具,掌握基本函数的梯度和 Hessian 计算以及最小二乘法的推导过程,将极大地帮助理解优化算法(如梯度下降)。

    在复习过程中,多尝试自己推导文档中的性质和公式,例如结合律的证明,迹的性质证明,梯度和 Hessian 的计算,以及最小二乘法的推导。

    发表回复

    Your email address will not be published. Required fields are marked *.

    *
    *

    Who Am I?

    SDU Statistics –> WHU DS

    张敬老师课题组研究生

    主要对具身智能、ML、DRL相关工作有兴趣,现在在进行Digital Human相关工作,欢迎合作指导。

    热爱🎸、⚽、📕,永远热爱生活

    联系我

    地址
    B103,计算机学院,武汉大学

    联系方式

    cdj_wh@126.com