过拟合、欠拟合及其解决方案等打卡

Shaine ·
更新时间:2024-09-21
· 585 次阅读

一、过拟合、欠拟合及其解决方案
1.概念
过拟合:模型在训练集上能够得到很好的误差,但是在测试集上的效果很差。
欠拟合:模型无法得到较低的训练误差。(在训练集和测试集上都不能得到较好的误差)
过拟合
欠拟合
2.多项式函数拟合实验
1)torch.cat((A,B),dim)
它是将两个张量(tensor)拼接在一起,cat是concatnate的意思,即拼接,联系在一起。
使用torch.cat((A,B),dim)时,除拼接维数dim数值可不同外其余维数数值需相同,方能对齐。

2)nn.Linear(in_features,out_features,bias=True)
nn.Linear()是用于设置网络中的全连接层的,需要注意的是全连接层的输入与输出都是二维张量,一般形状为[batch_size, size],不同于卷积层要求输入输出是四维张量。参数如下:
in_features指的是输入的二维张量的大小,即输入的[batch_size, size]中的size。
out_features指的是输出的二维张量的大小,即输出的二维张量的形状为[batch_size,output_size],当然,它也代表了该全连接层的神经元个数。
bias为偏差,布尔型。True为使用偏差。

3.权重衰减:L2 范数正则化
在模型原损失函数基础上添加L2范数惩罚项,从而得到训练所需要最小化的函数,可以解决模型过拟合。

二、梯度消失、梯度爆炸
1.概念
当神经网络的层数较多时,模型的数值稳定性容易变差。
假设一个层数为 LL的多层感知机的第 ll层 H(l)的权重参数为 W(l),输出层 H(L)的权重参数为 W(L)。为了便于讨论,不考虑偏差参数,且设所有隐藏层的激活函数为恒等映射(identity mapping) ϕ(x)=x 。给定输入 X ,多层感知机的第 l层的输出 H(l)=XW(1)W(2)…W(l) 。此时,如果层数 l 较大, H(l)的计算可能会出现衰减或爆炸。举个例子,假设输入和所有层的权重参数都是标量,如权重参数为0.2和5,多层感知机的第30层输出为输入 X 分别与 0.230≈1×10−21(消失)和 530≈9×1020 (爆炸)的乘积。当层数较多时,梯度的计算也容易出现消失或爆炸。

2.环境因素
1)协变量偏移
这里我们假设,虽然输入的分布可能随时间而改变,但是标记函数,即条件分布P(y∣x)不会改变。(理解:训练集中特征对应的标签始终不变,但是测试集中的特征改变了。)
2)标签偏移
当我们认为导致偏移的是标签P(y)上的边缘分布的变化,但类条件分布是不变的P(x∣y)时,就会出现相反的问题。当我们认为y导致x时,标签偏移是一个合理的假设。例如,通常我们希望根据其表现来预测诊断结果。在这种情况下,我们认为诊断引起的表现,即疾病引起的症状。有时标签偏移和协变量移位假设可以同时成立。例如,当真正的标签函数是确定的和不变的,那么协变量偏移将始终保持,包括如果标签偏移也保持。有趣的是,当我们期望标签偏移和协变量偏移保持时,使用来自标签偏移假设的方法通常是有利的。这是因为这些方法倾向于操作看起来像标签的对象,这(在深度学习中)与处理看起来像输入的对象(在深度学习中)相比相对容易一些。(理解:训练集中特征始终不变,但是测试集中的标签有多种。)
3)概念偏移
不同地区对同一术语的概念不同。

三、卷积神经网络进阶
1.RNN存在梯度较容易出现衰减或爆炸的情况,因此提出门控神经网络。
⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系
在这里插入图片描述
Rt=σ(XtWxr+Ht−1Whr+br)(重置门:有助于捕捉时间序列⾥短期的依赖关系)
Zt=σ(XtWxz+Ht−1Whz+bz)(更新⻔:有助于捕捉时间序列⾥⻓期的依赖关系)
H˜t=tanh(XtWxh+(Rt⊙Ht−1)Whh+bh)
Ht=Zt⊙Ht−1+(1−Zt)⊙H˜t

2.初始化参数
nn.Parameter()
可以把这个函数理解为类型转换函数,将一个不可训练的类型Tensor转换成可以训练的类型parameter并将这个parameter绑定到这个module里面

3.LSTM(长短期记忆long short-term memory )
在这里插入图片描述
It=σ(XtWxi+Ht−1Whi+bi)
Ft=σ(XtWxf+Ht−1Whf+bf)(遗忘门:控制上一时间步的记忆细胞 输入门:控制当前时间步的输入)
Ot=σ(XtWxo+Ht−1Who+bo)(输出门:控制从记忆细胞到隐藏状态)
C˜t=tanh(XtWxc+Ht−1Whc+bc)
Ct=Ft⊙Ct−1+It⊙C˜t(记忆细胞:⼀种特殊的隐藏状态的信息的流动)
Ht=Ot⊙tanh(Ct)

4.深度循环神经网络
在这里插入图片描述

5.双向循环神经网络
在这里插入图片描述


作者:D__Bruce_Lee



过拟合 欠拟合 解决方案

需要 登录 后方可回复, 如果你还没有账号请 注册新账号
相关文章
Tricia 2020-10-13
661