模式识别 1-绪论 (Updating)

1.1 多项式拟合

应用多项式进行拟合，公式如下：

\begin{equation} y(x, w) = w_0 + w_1x + w_2x^2 +...+w_mx^m = \sum\limits_{j=0}^{m}w_jx^j \tag{1.1} \end{equation}

描述其拟合的准确好坏，使用误差函数进行描述：

\begin{equation} E(w) = \frac{1}{2} \sum\limits_{n=1}^N\{y(x_n, w) - t_n\}^2 \tag{1.2} \end{equation}

其中，平方是因为有些误差为正、有些误差为负，而取$\frac{1}{2}$是为了计算简便。

我们的目标是为了使误差函数尽可能的小，对(1.2)进行求导，可以得到唯一解$w^*$，最小值为$E(w^*)$

下面我们来讨论公式(1.1)中$m$取值的相关问题。

不难发现，$m$太大的时候会发生过拟合，泛化性能下降，我们需要一个能够衡量模型泛化能力的指标。这里引入均方根误差：

\begin{equation}E_{RMS} = \sqrt{2E(w^*)/N} \tag{1.3}\end{equation}

在这里我们进行开平方根操作，是为了统一量纲，使其与$t$有相同的单位。

观察数据可以发现，在$M$取较小值得时候，参数的变化较小，而在$M$取较大值时，参数发生了正负较大的震荡，这样会导致其虽然能够在训练集上尽可能的贴合数据，但在脱离训练集后产生较大的不可测误差。

如何来增强模型的泛化能力，我们首先可以考虑增加样本的数量：

也可以使用正则化方式：

\begin{equation}\widetilde{E}(w) = \frac{1}{2} \sum\limits_{n=1}^N\{y(x_n, w) - t_n\}^2 + \frac{\lambda}{2}||w||^2 \tag{1.4}\end{equation}

其中，$\frac{\lambda}{2}||w||^2$ 也被称为惩罚项，而 $||w||^2 \equiv w^Tw = w_0^2 + w_1^2 + … + w_m^2$，$\lambda$的大小控制正则化影响的大小。

考虑下面一种较为一般的情况，我们有两个随机变量$X, Y$，对应到下图中，即$X$取值范围为$\left\{x_{1},x_{2},x_{3},x_{4},x_{5}\right\}$，$Y$的取值范围为$\left\{y_{1},y_{2},y_{3}\right\}$。

进行$N$次取样，把结果为 $X=x_{i},Y=y_{i}$的试验数量记作 $n_{ij}$