线性代数

行列式

  • 余子式:除去元素的行列式(Determinant)
  • 代数余子式:余子式(1)i+j余子式*(-1)^{i+j}
  • 行列式:一个矩阵的行列式就是一个平行多面体的(定向的)体积
  • 范德蒙行列式:第一行均为1,则为第二行依次从后相减的积

矩阵

  • 同型矩阵(Matrix):行数、列数相等

  • 伴随矩阵(Adjoint Matrix):各元素由自己的代数余子式代替形成的矩阵(等于行列式乘逆矩阵)

  • 特殊矩阵:

    • 单位矩阵(E):主对角线全为1,其余为零
    • 数量矩阵:主对角线全为a,其余为零
    • 非奇异矩阵:n阶矩阵的行列式不为零
    • 实对称矩阵:转置与自身相等
    • 正交矩阵:与转化相乘为单位矩阵
    • 对角矩阵:主对角有值,其余为0
  • 矩阵的迹:主对角线上元素之和,表示为tr(A)

  • 矩阵可逆的充要条件:矩阵行列式不为零

  • 矩阵的初等变换:

    • 对调两行(列)

    • 某行(列)乘以非0常数

    • 某行(列)倍加到另一行(列)

  • 初等矩阵:单位矩阵经过一次初等变换得到的

  • 矩阵的秩(Rank):矩阵的自由度,记为r(A)

  • 矩阵等价(equivalence):A与B同型,且二者秩相等(或PAQ=B)

向量

  • 向量(Vector):既有长度又有方向的量,一般指列向量

  • 向量的模(Magnitude):即向量长度,记为|a|

  • 向量的内积(Inner Product ):对应分量相乘,记为(a,b)

  • 向量组线性无关(Linear Independence ):齐次线性方程组(x1a1+x2a2++xnan=0x_1a_1+x_2a_2+\dots+x_na_n = 0)只有零解(向量组行列式不为零)

  • 线性表示:非齐次线性方程组(x1a1+x2a2++xnan=bx_1a_1+x_2a_2+\dots+x_na_n = b)有解,则b可由a1、a2、…、an线性表示

  • 极大线性无关组:向量组中r个向量线性无关,r+1一定线性相关

  • n维向量空间:n维向量、加法和数乘为n维向量空间

  • 基(Base):n个向量线性无关,且任意向量可以由该向量组线性表示

  • 正交规范基:基两两正交且都是单位向量

线性方程组

  • 齐次线性方程组:AX = 0

  • 非齐次线性方程组:AX = b

  • 增广矩阵:A|b

特征值与特征向量

  • 二次型:多项式每一项次数都是2,可以化为XTAXX^TAX

    • 标准二次型:A为对角矩阵
    • 非标准二次型:AT=AA^T=A,但非对角矩阵
  • 特征值(Eigenvalue)与特征向量Aα=λαA\alpha=\lambda\alpha,则常数为特征值,非零列向量a为特征向量

    • 将特征向量看成基向量,矩阵就是这些基向量向对应的特征值伸展所需的数学运算
    • 实对称矩阵的不同特征值对应的特征向量必定正交
    • 同一特征值可以对应无数个特征向量(非重根),但是线性无关的只有一个
    • 对于任何一个n阶方矩阵,都可以找到使得经过n阶方阵变换的主要方向(特征向量)+各个方向的拉伸大小(特征值)。即求特征向量,就是把矩阵A所代表的空间进行正交分解,使得A的向量集合可以表示为每个向量a在各个特征向量上的投影长度。我们通常求特征值和特征向量即为求出这个矩阵能使哪些向量只发生拉伸,而方向不发生变化,观察其发生拉伸的程度。这样做的意义在于,看清一个矩阵在哪些方面能产生最大的分散度(scatter),减少重叠,意味着更多的信息被保留下来。
    • 所有特征值之和为矩阵的迹,所有特征值之积为行列式
  • 相似对角化: B=P1APB=P^{-1}AP ,A为对角矩阵

  • 施密特正交化:把线性无关的向量转换为一组两两正交且规范的向量组的过程

  • 正交矩阵:n阶矩阵QTQ=EQ^TQ=E

二次型

  • 矩阵合同:PTAP=BP^TAP=B,A、B为n阶实对称矩阵,P为可逆矩阵,则ABA\simeq B(A、B正、负、零特征值个数相同)
  • 矩阵相似:P1AP=BP^{-1}AP=B,A、B为n阶矩阵,P为可逆矩阵,则ABA\sim B(A、B特征值相同,且都能相似对角化)
  • 正定矩阵:XTAX>0X^TAX>0,称该二次型为正定二次型,A为正定矩阵
    • A的特征值全为正数
    • A的顺序主子式都大于零
    • A一定为可逆矩阵

概率论

随机事件与概率

  • 事件运算的性质:AB=Aˉ+Bˉ\overline{AB}=\bar{A}+\bar{B}AˉBˉ=A+B\bar{A}\bar{B}=\overline{A+B}

  • 概率基本公式:

    • P(AB)=P(ABˉ)=P(A)P(AB)P(A-B)=P(A\bar{B})=P(A)-P(AB)

    • P(A+B)=P(A)+P(B)P(AB)P(A+B)=P(A)+P(B)-P(AB)

    • P(AB)=P(A)P(BA)P(AB)=P(A)P(B|A)

  • 事件独立:P(AB)=P(A)P(B)P(AB)=P(A)P(B)

  • 全概率公式:P(B)=P(Ai)P(BAi)P(B)=\sum P(A_i)P(B|A_i),A的集合为一个完备事件组

  • 贝叶斯公式:P(AiB)=P(Ai)P(BAi)P(B)P(A_i|B)=\frac{P(A_i)P(B|A_i)}{P(B)}

  • 伯努利概型:重复n次随机试验,P(AK)=Cnkpk(1p)nkP(A_K)=C_n^kp^k(1-p)^{n-k}

一维随机变量及其分布

  • 随机变量:样本空间的单值函数

  • 分布函数:F(X)=P{Xx}F(X)=P\{X\le {x}\}

    • [0,1]

    • 单调不减

    • 右连续

    • P{X=a}=F(a)F(a0)P\{X=a\} = F(a)-F(a-0)

    • P{X<a}=F(a0)P\{X<a\}=F(a-0)

  • 概率密度函数:非负、积分为1

  • (0-1)分布:XB(1,p)X\sim B(1,p)

  • 二项分布:XB(n,p)P{X=k}=Cnkpk(1p)nkX\sim B(n,p),P\{X=k\}=C_n^kp^k(1-p)^{n-k}

  • 泊松分布:XP(λ)P{X=k}=λkk!eλX\sim P(\lambda),P\{X=k\}=\frac{\lambda^k}{k!}e^{-\lambda}

  • 几何分布:XG(p)P{X=k}=p(1p)k1X\sim G(p),P\{X=k\}=p(1-p)^{k-1}

  • 超几何分布:XH(n,M,N)P{X=k}=CMkCNMnkCNnX\sim H(n,M,N),P\{X=k\}=\frac{C_M^kC_{N-M}^{n-k}}{C_N^n}

  • 均匀分布:XU(a,b)f(x)=1ba,axbX\sim U(a,b),f(x)=\frac{1}{b-a},a\le x\le b

  • 指数分布:XE(λ)f(x)=λeλx,x>0X\sim E(\lambda),f(x)=\lambda e^{-\lambda x},x> 0

  • 正态分布:XN(μ,δ2)f(x)=12πδe(xμ)22δ2X \sim N(\mu ,\delta ^2),f(x)=\frac{1}{\sqrt{2\pi}\delta}e^{-\frac{(x-\mu)^2}{2\delta ^2}}

随机变量的数字特征

  • 数学期望:E(X)=+xf(x)dxE(X)=\int_{-\infty}^{+\infty}xf(x)dx

  • 若X,Y独立,E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)

  • 方差:D(X)=E{[XE(X)]2}=E(X2)[E(X)]2D(X)=E\{[X-E(X)]^2\}=E(X^2)-[E(X)]^2

  • 若X,Y独立,D(aX+bY)=a2D(X)+b2D(Y)D(aX+bY)=a^2D(X)+b^2D(Y)

  • 协方差:Cov(X,Y)=E{[XE(X)][YE(Y)]}=E(XY)E(X)E(Y)Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}=E(XY)-E(X)E(Y)

  • 相关系数:ρXY=Cov(X,Y)D(X)D(Y)\rho _{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}

大数定律与中心极限定理

  • 切比雪夫不等式:P{XE(X)<ε}1D(X)ε2P\{|X-E(X)|<\varepsilon \}\ge1-\frac{D(X)}{\varepsilon ^2}(代表均值附近占大部分比例,D(X)ε2\frac{D(X)}{\varepsilon ^2}表示小概率)

  • 大数定律:$X_n\overset{P}{\rightarrow}a,(n趋近于无穷) $

    • 切比雪夫大数定律:独立、各方差有公共上界,则多个随机变量的平均依概率收敛于多个随机变量均值的平均

    • 独立同分布大数定律:独立同分布,则多个随机变量的平均依概率收敛于μ\mu

    • 辛勤大数定律:独立同分布(方差可以不存在),则多个随机变量的平均依概率收敛于μ\mu

  • 中心极限定理

    • 列维-林德伯格中心极限定理:独立同分布,均值方差存在,随机变量和的分布近似服从N(nμ,nδ2)N(n\mu,n\delta ^2)

    • 棣莫佛-拉普拉斯中心极限定理:二项分布n很大(50以上),p很小(0.1以下),则随机变量近似服从N(np,np(1p))N(np,np(1-p))

数理统计基本概念

  • χ2\chi ^2分布:n个标准动态分布独立,其平方和服从χ2(n)\chi ^2(n),均值为n,方差为2n

  • t分布:XN(0,1),Yχ2(n)X\sim N(0,1),Y\sim \chi ^2(n),X,Y独立,则XYnt(n)\frac{X}{\sqrt{\frac{Y}{n}}}\sim t(n),均值为0,方差为nn2\frac{n}{n-2}

  • F分布:Xχ2(m),Yχ2(n)X\sim \chi ^2(m),Y\sim \chi ^2(n),则X/mY/nF(m,n)\frac{X/m}{Y/n}\sim F(m,n)

参数估计

  • 参数估计:X为总体,分布已知,含未知参数(区间估计:估计参数的置信区间,点估计:估计参数的估计量(值))

  • 矩估计:

    • θ\theta,如果E(X)含未知参数,则令E(X)=XˉE(X)=\bar{X},否则,令E(X2)=1nXi2E(X^2)=\frac{1}{n}\sum X_i^2

    • 含两个参数,令总体原点矩等于样本原点矩,总体二阶原点矩等于A2A_2,解方程

  • 最大似然估计:

    • 离散型,L为概率连乘,L取对数,若一个参数,则求导等于0,若两个参数,则求偏导解方程组

    • 连续型,L为概率密度连乘,取对数,若一个参数,则求导等于0,若两个参数,则求偏导解方程组

附录

常见离散型随机变量的数学期望和方差1

常见连续型随机变量的数学期望和方差2