李邹
既相遇,何不秉烛游?
掷一枚硬币

模式识别 1-绪论 (Updating)

1.1 多项式拟合

https://www.lizou.ltd/wp-content/uploads/2022/10/image.png
根据散点拟合曲线

应用多项式进行拟合,公式如下:

\begin{equation}
y(x, w) = w_0 + w_1x + w_2x^2 +...+w_mx^m = \sum\limits_{j=0}^{m}w_jx^j \tag{1.1}
\end{equation}

描述其拟合的准确好坏,使用误差函数进行描述:

\begin{equation}
E(w) = \frac{1}{2} \sum\limits_{n=1}^N\{y(x_n, w) - t_n\}^2 \tag{1.2}
\end{equation}

其中,平方是因为有些误差为正、有些误差为负,而取$\frac{1}{2}$是为了计算简便。

我们的目标是为了使误差函数尽可能的小,对(1.2)进行求导,可以得到唯一解$w^*$,最小值为$E(w^*)$

下面我们来讨论公式(1.1)中$m$取值的相关问题。

https://www.lizou.ltd/wp-content/uploads/2022/10/image-1.png
不同m取值下曲线的拟合情况

不难发现,$m$太大的时候会发生过拟合,泛化性能下降,我们需要一个能够衡量模型泛化能力的指标。这里引入均方根误差:

\begin{equation}E_{RMS} = \sqrt{2E(w^*)/N} \tag{1.3}\end{equation}

在这里我们进行开平方根操作,是为了统一量纲,使其与$t$有相同的单位。

https://www.lizou.ltd/wp-content/uploads/2022/10/image-2.png
均方根误差随m取值的变化情况
https://www.lizou.ltd/wp-content/uploads/2022/10/image-3.png

观察数据可以发现,在$M$取较小值得时候,参数的变化较小,而在$M$取较大值时,参数发生了正负较大的震荡,这样会导致其虽然能够在训练集上尽可能的贴合数据,但在脱离训练集后产生较大的不可测误差。

如何来增强模型的泛化能力,我们首先可以考虑增加样本的数量:

https://www.lizou.ltd/wp-content/uploads/2022/10/image-4.png
不同散点数量下曲线的拟合情况

也可以使用正则化方式:

\begin{equation}\widetilde{E}(w) = \frac{1}{2} \sum\limits_{n=1}^N\{y(x_n, w) - t_n\}^2 + \frac{\lambda}{2}||w||^2 \tag{1.4}\end{equation}

其中,$\frac{\lambda}{2}||w||^2$ 也被称为惩罚项,而 $||w||^2 \equiv w^Tw = w_0^2 + w_1^2 + … + w_m^2$,$\lambda$的大小控制正则化影响的大小。

1.2 概率论

考虑下面一种较为一般的情况,我们有两个随机变量$X, Y$,对应到下图中,即$X$取值范围为$\left\{x_{1},x_{2},x_{3},x_{4},x_{5}\right\}$,$Y$的取值范围为$\left\{y_{1},y_{2},y_{3}\right\}$。

https://www.lizou.ltd/wp-content/uploads/2022/10/image-5.png
取样图示

进行$N$次取样,把结果为 $X=x_{i},Y=y_{i}$的试验数量记作 $n_{ij}$

发表回复

textsms
account_circle
email

掷一枚硬币

模式识别 1-绪论 (Updating)
模式识别课程第一章笔记整理,参考《pattern recognition and machine learning》
扫描二维码继续阅读
2022-10-12