1.1 多项式拟合
应用多项式进行拟合,公式如下:
\begin{equation} y(x, w) = w_0 + w_1x + w_2x^2 +...+w_mx^m = \sum\limits_{j=0}^{m}w_jx^j \tag{1.1} \end{equation}
描述其拟合的准确好坏,使用误差函数进行描述:
\begin{equation} E(w) = \frac{1}{2} \sum\limits_{n=1}^N\{y(x_n, w) - t_n\}^2 \tag{1.2} \end{equation}
其中,平方是因为有些误差为正、有些误差为负,而取$\frac{1}{2}$是为了计算简便。
我们的目标是为了使误差函数尽可能的小,对(1.2)进行求导,可以得到唯一解$w^*$,最小值为$E(w^*)$
下面我们来讨论公式(1.1)中$m$取值的相关问题。
不难发现,$m$太大的时候会发生过拟合,泛化性能下降,我们需要一个能够衡量模型泛化能力的指标。这里引入均方根误差:
\begin{equation}E_{RMS} = \sqrt{2E(w^*)/N} \tag{1.3}\end{equation}
在这里我们进行开平方根操作,是为了统一量纲,使其与$t$有相同的单位。
观察数据可以发现,在$M$取较小值得时候,参数的变化较小,而在$M$取较大值时,参数发生了正负较大的震荡,这样会导致其虽然能够在训练集上尽可能的贴合数据,但在脱离训练集后产生较大的不可测误差。
如何来增强模型的泛化能力,我们首先可以考虑增加样本的数量:
也可以使用正则化方式:
\begin{equation}\widetilde{E}(w) = \frac{1}{2} \sum\limits_{n=1}^N\{y(x_n, w) - t_n\}^2 + \frac{\lambda}{2}||w||^2 \tag{1.4}\end{equation}
其中,$\frac{\lambda}{2}||w||^2$ 也被称为惩罚项,而 $||w||^2 \equiv w^Tw = w_0^2 + w_1^2 + … + w_m^2$,$\lambda$的大小控制正则化影响的大小。
1.2 概率论
考虑下面一种较为一般的情况,我们有两个随机变量$X, Y$,对应到下图中,即$X$取值范围为$\left\{x_{1},x_{2},x_{3},x_{4},x_{5}\right\}$,$Y$的取值范围为$\left\{y_{1},y_{2},y_{3}\right\}$。
进行$N$次取样,把结果为 $X=x_{i},Y=y_{i}$的试验数量记作 $n_{ij}$
发表回复