机器学习模型验证——以数据为中心的方法

构建机器学习模型时,人们往往将激情和精力集中于收集数据和训练模型,对测试模型和验证结果往往缺少应有的关注。正确的验证技术有助于估计无偏见的广义模型的性能,并更好地理解模型训练的效果。您需要确保机器学习模型经过准确的训练,能输出正确的数据,在部署到现实场景中时,它还能做出准确的预测。经过适当验证的模型足够可靠,能够适应现实世界中的各种新场景。 不幸的是,没有任何一种验证技术可以适用于所有的机器学习模型。选择正确的验证方法需要理解组数据和时间索引数据。 本文将介绍主要的机器学习模型验证方法,并说明测试和验证机器学习模型结果重要的原因。  

模型验证的重要性

验证机器学习模型的结果旨在确保数据的正确性和准确性。通过验证可以在小问题变成大问题之前发现问题,是实现任何机器学习模型的关键一环。

安全性

模型验证的一个最关键方面是寻找安全漏洞。训练数据和机器学习模型数据都很有价值,对于私有数据或敏感数据的情况尤其如此。机器学习模型可能会意外泄漏数据,这意味着验证技术应该能检查数据泄漏的漏洞。 在将训练数据输入机器学习模型之前,采取严格的安全措施也很重要。例如,可以对数据进行匿名或化名处理。

可靠性

验证机器学习模型对于检查模型的可靠性也很重要。您需要了解模型,了解它的优缺点。了解模型有助于解释和查找稍后输出中的错误。了解模型的行为还能帮助您注意到可能发生的任何偏差和偏见。

避免偏见

虽然机器学习技术已彻底改变计算世界,但它的好坏取决于它的创造者。这意味着许多机器学习模型内置了偏见。算法可能存在偏见和/或训练数据也可能存在偏见。 知道如何在机器学习模型中寻找偏见以及如何修正偏见,是模型验证的一个重要方面,这将使机器学习的世界变得更美好、更公平。

预防概念偏差

概念偏差是指允许机器学习模型退化,允许其预测的结果与预期的结果不同的情况。概念偏差会发生,而模型偏差的方式却不可预测。偏差无益于机器学习模型,因为这会使输出数据的用处不大。 虽然最初的机器学习模型验证不会发现概念偏差,但通过适当的维护和定期测试就能做到。概念偏差会随着时间的推移而发生,但这完全可以通过日常维护加以预防。  

正确的数据和正确的人员

如果您正在构建机器学习模型,或是有意在公司中应用AI技术,则至关重要的是,使用正确的训练数据和正确的人员验证和维护模型。如果不验证模型,也不实施持续维护,机器学习模型可能会退化。

持续监控

没有一种机器学习模型是完美的,它们也不会一直保持完美。机器学习模型需要持续监控和调整,以确保输出准确、相关的信息。 虽然机器学习在经过训练后基本上是自主的,但验证和监控却需要人机协同。人工定期维护和检查机器学习模型非常重要。这项工作可以定期进行,也可以实时进行。  

模型验证技术

有许多不同的模型验证技术,正确方法的选择将取决于数据以及要通过机器学习模型实现的目标。以下是最常见的模型验证技术。

训练和测试拆分或保留

最基本的验证技术类型是训练和测试拆分。验证技术的重点是查看机器学习模型对以前从未见过的数据的反应。所有验证方法均基于训练和测试拆分,但略有不同。 使用这种基本的验证方法,可以将数据分成两组:训练数据和测试数据。需要保留测试数据,在测试模型之前,不要向机器学习模型公开它们。大多数人按三七比例分割数据,70%的数据用于训练模型。

再带入

在再带入验证方法中,所有数据均被用作训练数据。然后,将机器学习模型输出的错误率与训练数据集的实际值进行比较。该方法易于实现,它有助于快速找到数据中的漏洞。

K折交叉验证

K折交叉验证与测试拆分验证类似,不同之处在于前者将数据拆分为两个以上的组。在这种验证方法中,“K”被用作占位符,表示要拆分成的数据组的数量。 例如,可以将数据分成10个组。一组被排除在训练数据之外。然后,使用训练数据之外的数据组验证机器学习模型。接着,进行交叉验证。作为训练数据使用的9个数据组也分别被用于测试机器学习模型。每次测试和分数均可提供有关机器学习模型中有效性的新信息。

随机子抽样

随机子抽样的功能与训练和测试验证模型方法相同。关键的区别在于,前者将随机抽取数据的子样本,然后形成测试集。所有其他未在随机子样本中选择的数据均作为训练数据。

自助抽样

自助抽样也是一种机器学习模型验证技术,它使用放回抽样方法。这种验证方法对于估计总体数量最为有用。 使用自助抽样验证方法时,将从整个数据集中抽取一个小样本。这个小样本中将包括平均值或其他有意义的统计数据。需要替换数据,纳入计算的新统计数据,然后再次运行模型。

嵌套交叉验证

验证技术大多数都是为了评估结果的误差。嵌套交叉验证技术用于评估机器学习模型的超参数。用这种方法测试超参数可以防止过度拟合。 要使用这种模型,需要将两个K折交叉验证循环相互嵌套。内环用于超参数整定,外环用于误差测试和准确性估计。  

选择正确的模型

以上列出的机器学习验证模型列表并不详尽,还有其他类型的测试模型和验证技术。每个模型功能各不相同,对数据和机器学习模型提供的见解也略有不同。验证方法往往也有正误。重要的是在选择时要评估不同的验证技术,为模型选择正确的验证技术,确保其不会出错。 选择正确的验证模型很不容易。您需要了解数据和机器学习模型,以确保能够获得所需的信息。在此环节,您不能草率,也不能跳过。选择正确的验证技术意味着要测试机器学习模型,知道它是安全、没有偏见的,并且能可靠地提供高质量的输出。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/232170.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

游戏开发纪实——一款横板2d跑酷游戏是如何诞生的?

前不久,参加了学校游戏社团Nova独游社举办为期两周的GameJam,算是一段有点意思的经历,遂以本文记录如下。 GameJam是什么 GameJam是指游戏开发者聚集在一起,在有限的时间内合作创作游戏的活动。这种活动旨在通过短时间内集中精力…

re:Invent 构建未来:云计算生成式 AI 诞生科技新局面

文章目录 前言什么是云计算云计算类型亚马逊云科技云计算最多的功能最大的客户和合作伙伴社区最安全最快的创新速度最成熟的运营专业能力 什么是生成式 AI如何使用生成式 AI后记 前言 在科技发展的滚滚浪潮中,我们见证了云计算的崛起和生成式 AI 的突破&#xff0c…

什么是美颜sdk?集成第三方美颜sdk的步骤

本文将深入探讨如何集成第三方美颜sdk,为直播平台引入更先进、更具吸引力的美颜特效。 第一步:选择合适的第三方美颜sdk 在开始集成美颜sdk之前,首要任务是选择适合自己直播平台需求的第三方美颜sdk。不同的sdk可能具有不同的特色和性能&a…

rabbitmq-server-3.11.10.exe

rabbitmq需要erlang环境 otp_win64_25.1.exe erlang-CSDN博客 https://www.rabbitmq.com/download.htmlhttps://www.rabbitmq.com/install-windows.htmlhttps://github.com/rabbitmq/rabbitmq-server/releases/download/v3.11.10/rabbitmq-server-3.11.10.exe C:\Users\Admi…

Tomcat的安装及其使用

一.下载安装 本文下载的是8.5版本的,下载链接:Apache Tomcat - Welcome! 切记解压缩的目录不要有中文存在。 二.启动Tomcat 在解压缩之后,会有很多文件存在,但是我们只需要在意两个文件! webapps 目录 . web applica…

阿里健康发布最新公告:收入129.6亿 获阿里妈妈医疗健康类目独家经营权

11月28日,阿里健康发布公告宣布,正式与阿里巴巴集团签署股权认购协议,以135.12亿港元对价,获得阿里妈妈医疗健康类目的独家营销审核权及附属权利。交易完成后,阿里巴巴集团对阿里健康的持股比例从56.99%上升到63.83%。…

【探索Linux】—— 强大的命令行工具 P.18(进程信号 —— 信号捕捉 | 信号处理 | sigaction() )

阅读导航 引言一、信号捕捉1. 内核实现信号捕捉过程2. sigaction() 函数(1)函数原型(2)参数说明(3)返回值(4)函数使用 二、可重入函数与不可重入函数1. 可重入函数条件2. 不可重入函…

网站优化进阶指南:如何用Python爬虫进行网站结构优化

前段时间一个做网络优化的朋友找我,问我能不能通过爬虫的手段对他们自己的网络进行优化。这个看着着实比较新颖,对于从事爬虫行业的程序员来说,很有挑战性,值得尝试尝试。 说白了使用爬虫进行网站优化需要对网站的结构、内容、链…

深光标准谷歌GMS认证实际EDLA项目分享

一、谷歌EDLA协议简单介绍,设备过认证是做MADA的还是EDLA的?EDLA跟MADA有什么区别? 在了解EDLA跟MADA的差异之前,我们需要先了解这两个协议的中文意思,EDLA,英文为Enterprise Device Licensing Agreeement—…

python类的多重继承继承和查找顺序

1 python类的多重继承继承和查找顺序 python中,类的多重继承允许子类继承多个基类,子类可以访问多个基类的属性和方法。 1.1 多重继承基础 用法 class MulClass(BaseC1,BaseC2,...BaseCn):pass描述 Mulclass:子类(或者称混合…

LeetCode(36)旋转图像【矩阵】【中等】

目录 1.题目2.答案3.提交结果截图 链接: 48. 旋转图像 1.题目 给定一个 n n 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。 你必须在** 原地** 旋转图像,这意味着你需要直接修改输入的二维矩阵。请不要 使用另一个矩阵来旋转图像。 …

【01】侯小啾python入门计划_导语

侯小啾python入门计划_导语 欢迎大家订阅《侯小啾python入门计划》专栏,本专栏经作者侯小啾精心打造,极致把握初学者心理状态与困境,让小白少走弯路,让大佬快速成长。Python是一种简单易学且功能强大的编程语言。对于大多数非科班…