Datawhale X 李宏毅苹果书AI夏令营深度学习入门(三)

news/2024/11/15 6:33:23/文章来源:https://www.cnblogs.com/CuckooAI/p/18393994

一.实践方法论
(一)模型偏差
模型偏差可能会影响模型训练。若模型过于简单,一个有未知参数的函数代θ1 得到一个函数 fθ1(x),同理可得到另一个函数 fθ2(x),把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了,没有包含任何一个函数,可以让损失变低的函数不在模型可以描述的范围内。在这种情况下,就算找出了一个 θ∗,虽然它是这些蓝色的函数里面最好的一个,但损失还是不够低。
(二)优化问题
一般只会用到梯度下降进行优化,这种优化的方法很多的问题。比如可能会卡在局部最小值的地方,无法找到一个真的可以让损失很低的参数
(三)判断模型够不够大的方法
通过比较不同的模型来判断模型现在到底够不够大,看到一个从来没有做过的问题,可以先跑一些比较小的、比较浅的网络,或甚至用一些非深度学习的方法,比如线性模型、支持向量机(Support Vector Machine,SVM),SVM 可能是比较容易做优化的,它们比较不会有优化失败的问题。也就是这些模型它会竭尽全力的,在它们的能力范围之内,找出一组最好的参数,它们比较不会有失败的问题。
(四)过拟合
在训练数据上的损失是 0。把训练数据通通丢进这个函数里面,它的输出跟训练集的标签是一模一样的,所以在训练数据上面,这个函数的损失可是 0 呢,可是在测试数据上面,它的损失会变得很大。
解决方案:
(a)增加训练数据集,或者进行数据增强,数据增强就是根据问题的理解创造出新的数据,比如在进行图片识别时,对图像进行翻转裁剪得出的数据增加到训练集
(b)另外一个解法是给模型一些限制,让模型不要有过大的灵活性
最好模型正好跟背后产生数据的过程,过程是一样的就有机会得到好的结果。给模型制造限制可以有如下方法:
给模型比较少的参数。如果是深度学习的话,就给它比较少的神经元的数量,本来每层一千个神经元,改成一百个神经元之类的,或者让模型共用参数,可以让一些参数有一样的数值。全连接网络(fully-connected network)其实是一个比较有灵活性的架构,而卷积神经网络(Convolutional Neural Network,CNN)是一个比较有限制的架构。CNN 是一种比较没有灵活性的模型,其是针对图像的特性来限制模型的灵活性。所以全连接神经网络,可以找出来的函数所形成的集合其实是比较大的,CNN 所找出来的函数,它形成的集合其实是比较小的,其实包含在全连接网络里面的,但是就是因为CNN 给了,比较大的限制,所以 CNN 在图像上,反而会做得比较好
还有别的方法,比如早停(early stopping)、正则化(regularization)和丢弃法(dropoutmethod)。但也不要给太多的限制。
(五)交叉验证
比较合理选择模型的方法是把训练的数据分成两半,一部分称为训练集(training set),一部分是验证集(validation set)。比如 90% 的数据作为训练集,有 10% 的数据作为验证集。在训练集上训练出来的模型会使用验证集来衡量它们的分数,根据验证集上面的分数去挑选结果

(六)不匹配
不匹配是指训练集和测试集的分布不同

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/791471.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PlugIR:开源还不用微调,首尔大学提出即插即用的多轮对话图文检索 | ACL 2024

即插即用的PlugIR通过LLM提问者和用户之间的对话逐步改进文本查询以进行图像检索,然后利用LLM将对话转换为检索模型更易理解的格式(一句话)。首先,通过重新构造对话形式上下文消除了在现有视觉对话数据上微调检索模型的必要性,从而使任意黑盒模型都可以使用。其次,构建了…

「代码随想录算法训练营」第五十二天 | 图论 part10

目录Floyd算法题目:97. 小明逛公园A * 算法题目:126.骑士的攻击最短路算法总结 Floyd算法 Floyd算法用于求解多源最短路问题(求多个起点到多个终点的多条最短路径)。在前面学习的dijkstra算法、Bellman算法都是求解单源最短路的问题(即只能有一个起点)。 注意:Floyd算法…

定义一个正则表达式,使用finditer从表达式内取值后存储到列表中

演示代码:responce = requests.get(url = url_web,headers=head) url_obj = re.compile(r<a class="media-content" target="_blank" href="(?P<url>.*?)" title=".*?" ,re.S) list_url = url_obj.finditer(responce.tex…

大模型隐私泄露攻击技巧分析与复现

大型语言模型,尤其是像ChatGPT这样的模型,尽管在自然语言处理领域展现了强大的能力,但也伴随着隐私泄露的潜在风险。在模型的训练过程中,可能会接触到大量的用户数据,其中包括敏感的个人信息,进而带来隐私泄露的可能性。前言 大型语言模型,尤其是像ChatGPT这样的模型,尽…

反光衣自动识别检测系统

反光衣自动识别检测系统检测预警信息仪仗于完整的Ai智能分析平台,包含视频监管、视频采集、预测分析预警信息、可视化管理、时间监管、等模块,反光衣自动识别检测系统可以完成业务流程数据信息的数据共享,产生完善的安全生产管理体系。反光衣自动识别检测系统以健全设备的基…

深入剖析 PCI 转 CPCI 载板转接卡:连接不同架构的桥梁

在计算机技术不断发展的进程中,硬件接口的多样性和演进促使了各种转接卡的出现,以满足不同接口标准之间的连接和通信需求。其中,PCI 转 CPCI 载板转接卡作为一种关键的转接设备,在实现 PCI(Peripheral Component Interconnect)接口与 CPCI(CompactPCI)接口之间的转换方…

VMware Workstation 17.5.2 Pro for Linux 更新 OEM BIOS 2.7 支持 Windows Server 2025

VMware Workstation 17.5.2 Pro for Linux 更新 OEM BIOS 2.7 支持 Windows Server 2025VMware Workstation 17.5.2 Pro for Linux 更新 OEM BIOS 2.7 支持 Windows Server 2025 VMware Workstation 17.5.2 Pro macOS Unlocker & OEM BIOS 2.7 for Linux 在 Linux 上运行 m…

VMware Workstation 17.5.2 Pro for Windows 更新 OEM BIOS 2.7 支持 Windows Server 2025

VMware Workstation 17.5.2 Pro for Windows 更新 OEM BIOS 2.7 支持 Windows Server 2025VMware Workstation 17.5.2 Pro for Windows 更新 OEM BIOS 2.7 支持 Windows Server 2025 VMware Workstation 17.5.2 Pro macOS Unlocker & OEM BIOS 2.7 for Windows 在 Windows …

安全帽自动识别软件

安全帽自动识别软件提升现场管控效率、降低控制成本、提升企业生产管理规范、降低生产制造安全事故和产品质量安全隐患等作用。安全帽自动识别软件在施工工地十分关键,有时候乃至变成一顶救人的防护措施,所以大家需要依照规定恰当佩戴相对应色彩的安全帽,以减少很多不必要的…

1. 初识算法

1. 什么是算法 定义 : 在数学和计算机科学领域,算法是一系列有限的严谨指令,通常用于解决一类特定问题或执行计算In mathematics and computer science, an algorithm (/ˈlɡərɪəm/) is a finite sequence of rigorous instructions, typically used to solve a class o…

工地安全帽视频智能识别监测系统

工地安全帽视频智能识别监测系统根据安装在现场施工工地的各处各品牌的监控摄像头,组建智能监管和预警系统,工地安全帽视频智能识别监测系统开展面部识别、个人行为识别和安全帽识别,合理填补智能现场监管中传统式方法和技术的缺点,真真正正完成预警信息、正常的检验、规范…